Для обучения и инференса у вас есть следующие поля:
title
- заголовок,description
- описание,subcategory
- подкатегория,category
- категория,price
- цена,region
- регион,city
- город,datetime_submitted
- дата размещения.
Таргет задачи: is_bad
.
Есть два датасета: train.csv
и val.csv
.
В датасетах могут встречаться (как и, к сожалению, в любых размечаемых данных) некорректные метки.
train.csv
содержит больше данных, однако разметка в нём менее точная.
В val.csv
существенно меньше данных, но более точная разметка.
Тестовый датасет, на котором мы оценим решение, будет больше похож на val.csv
.
train.csv
можно качать перейдя по
ссылке
Необходимо оценить вероятность наличия в объявлении контактной информации.
Результатом работы модели является pd.DataFrame
с колонками:
index
:int
, положение записи в файле;prediction
:float
от 0 до 1.
Пример:
index | prediction |
---|---|
0 | 0.12 |
1 | 0.95 |
... | ... |
N | 0.68 |
В качестве метрики качества работы вашей модели мы будем использовать усредненный ROC-AUC
по каждой категории объявлений.