Проект по анализу эффективности учебных курсов.
-
Выяснить сколько студентов успешно сдали только один курс?
-
Выявить самый сложный и самый простой экзамен: найти курсы и экзамены в рамках курса, которые обладают самой низкой и самой высокой завершаемостью.
-
По каждому предмету определить средний срок сдачи экзаменов.
-
Выявить самые популярные предметы (ТОП-3) по количеству регистраций на них. А также предметы с самым большим оттоком (ТОП-3).
-
Выявить семестр с самой низкой завершаемостью курсов и самыми долгими средними сроками сдачи курсов в период с начала 2013 по конец 2014.
-
Построить RFM-кластеры студентов, чтобы качественно оценить свою аудиторию.
-
Количество студентов успешно завершивших только один курс = 3706
-
Самый простой экзамен DDD2014B с 92,4 % завершаемости и самый сложный DDD2013B с 82,9 % завершаемостью.
-
Получены табличные данные о средних датах последней успешной сдачи экзамена по каждому из курсов, по которым были данные по дате сдачи экзамена.
-
Выявлены самые популярные предметы по количеству регистраций и курсы с самым высоким оттоком.
-
Выявлены семестры с самой низкой завершаемостью курсов и самыми долгими средними сроками сдачи курсов в период с начала 2013 по конец 2014
-
Проведен RFM анализ.
assessments.csv — этот файл содержит информацию об оценках в тесте. Обычно каждый предмет в семестре включает ряд тестов с оценками, за которыми следует заключительный экзаменационный тест (экзамен).
-
code_module — идентификационный код предмета.
-
code_presentation — семестр (Идентификационный код).
-
id_assessment — тест (Идентификационный номер ассессмента).
-
assessment_type — тип теста. Существуют три типа оценивания: оценка преподавателя (TMA), компьютерная оценка (СМА), экзамен по курсу (Exam).
-
date — информация об окончательной дате сдачи теста. Рассчитывается как количество дней с момента начала семестра. Дата начала семестра имеет номер 0 (ноль).
-
weight — вес теста в % в оценке за курс. Обычно экзамены рассматриваются отдельно и имеют вес 100%; сумма всех остальных оценок составляет 100%.
courses.csv — файл содержит список предметов по семестрам.
-
code_module — предмет (идентификационный код).
-
code_presentation — семестр (идентификационный код).
-
module_presentation_length — продолжительность семестра в днях.
studentAssessment.csv — этот файл содержит результаты тестов студентов. Если учащийся не отправляет работу на оценку, результат не записывается в таблицу.
-
id_assessment — тест (идентификационный номер).
-
id_student — идентификационный номер студента.
-
date_submitted — дата сдачи теста студентом, измеряемая как количество дней с начала семестра.
-
is_banked — факт перезачета теста с прошлого семестра (иногда курсы перезачитывают студентам, вернувшимся из академического отпуска).
-
score — оценка учащегося в этом тесте. Диапазон составляет от 0 до 100. Оценка ниже 40 неудачная/неуспешная сдача теста.
studentRegistration.csv — этот файл содержит информацию о времени, когда студент зарегистрировался для прохождения курса в семестре.
-
code_module — предмет (идентификационный код).
-
code_presentation — семестр (идентификационный код)
-
id_student — идентификационный номер студента.
-
date_registration — дата регистрации студента. Это количество дней, измеренное от начала семестра (например, отрицательное значение -30 означает, что студент зарегистрировался на прохождение курса за 30 дней до его начала).
-
date_unregistration — дата отмены регистрации студента с предмета. У студентов, окончивших курс, это поле остается пустым.
pandas, numpy, seaborn, matplotlib