В следующем репозитории продемонстрировано решение тестового задания на позицию DS.
data_analysis.ipynb
- ноутбук с комментариями, графиками и анализом данных;
app.py
- реализация ноутбука в виде приложения на streamlit;
Статистика.csv
- файл с данными для решения тестового задания.
Ссылка на сервер с рабочим приложением: https://testappeldorado-asvj4j9e2pijbr6pjmkxya.streamlit.app/
Для поднятия docker контейнера:
- Скопируйте репозиторий;
docker build -t streamlit .
;sudo docker run -p 8502:8502 streamlit:latest
;- В браузере откройте
localhost:8502
.
Для начала работы приложения загрузите файл Статистика.csv
Дисклеймер: при выборе краевых случаев возраста и дней в приложении, скорее всего будет вылезать ошибка. Она появляется, поскольку стат. тесты не могут обрабатывать слишком маленькие выборки.
Условие задачи:
Руководство компании обратило внимание на то, что сотрудники старше 35 лет болеют чаще, чем более молодые сотрудники. Кроме этого, среди мужчин количество пропусков рабочих дней в связи с больничным выше, чем среди женщин. В связи с этой ситуацией, руководство организации планирует ввести дополнительные медицинские осмотры среди групп риска.
Вам необходимо проверить следующие гипотезы:
Мужчины пропускают в течение года более 2 рабочих дней (work_days) по болезни значимо чаще женщин.
Работники старше 35 лет (age) пропускают в течение года более 2 рабочих дней (work_days) по болезни значимо чаще своих более молодых коллег.
Все необходимые данные содержатся в файле «Статистика».
Решение необходимо предоставить: В виде jupyter notebook (с аккуратно оформленным кодом, графиками и описанной логикой решения). В виде дашборда на Streamlit с простым функционалом: должна быть возможность загрузить csv, в формате аналогично файлу «Статистика» должна быть возможность задать параметры age и work_days указан результат проверки гипотез указана логика получения результата (должны быть отрисованы графики распределений, указаны критерии проверки (стат. тесты, статистики, уровень значимости т.п.)
Код проекта должен быть обернут в docker выложен в gitlab/github репозиторий предоставлена ссылка на него. Будет обращаться внимание на качество кода, код стайл, оформление ноутбука, кода и репозитория. Будет плюсом, если дашборд будет поднят на сервере и на него будет предоставлена ссылка.