Предсказания зарплаты по описаниям вакансий со вспомогательными признаками
В рамках предложенной темы ставятся следующие задачи для поэтапной реализации:
- Собрать данные о вакансиях с сайта www.hh.ru, преобразовать данные в нужный формат - до 15 апреля продолжается сбор
- Предобработать данные, выделить наиболее информативные и полезные для обучения признаки, обработать таргет - до 10 марта
- Feature engineering - проанализировать признаки, возможно декомпозировать, закодировать описания вакансий, закодировать категориальные признаки - до 20 марта
- Обучить бейзлайн на трейне, провалидироваться - до 1 апреля
- Обучить модель первой итерации, подобрать гиперпараметры на валидации, посмотреть на feature importances, возможно исключить/добавить признаки, провалидировать модель - до 10 апреля
- Попробовать модель второй итерации, повторить для неё шаги из пункта 5 - до 1 мая
- Реализовать интерфейс для пользователя, с помощью которого можно загружать вакансии для предсказания зарплаты - до 20 мая
- Добавить элементы инфраструктуры для дальнейшей эксплуатации модели - до 1 июня
Данные представляют собой набор объектов-вакансий со множеством признаков. В необработанном виде каждая отдельная вакансия представлена файлом формата JSON.
Ввиду большого изначального количества признаков, ниже перечислены лишь основные из них.
название признака | описание |
---|---|
id | id вакансии, позволяет унифицировать вакансии |
created_at / published_at | даты создания и публикации вакансии - позволяют нам исследовать данные как временной ряд и обучать соответствующие модели |
salart_from / salary_to / salary_gross / salary_currency | заработная плата, представленная в разных форматах. В совокупности с представлениями дат создания / публикации данное поле позволяет нам спроектировать таргет для нашей задачи. |
name | название вакансии |
description | описание вакансии |