The recsys2019 from logicai-io

Ideas

vowpal wabbit model with interactions
improve item similarity beyond a set intersection - maybe weighted properties by 1/freq or model based
graph-based similarity of users: user->item->user->item or user->user->item
proper ensemble
factorization machines (including field aware)
sequence models

Issue of running 'Current process (full)' - no comp_v0_selected.csv

I have followed exactly of your instructions for 'Current process (full)', but when I ran python generate_data_parallel_all.py, I found that it requires comp_v0_selected.csv (not sure what it is) but this file has not been generated in the previous steps, so could you give me some hints? Thanks.

Stworzenie lepszej funkcji porównującej hotele

W tym momencie korzystamy z przecięcia zbiorów properties. Na pewno da się lepiej np. ważona kombinacja properties + cena.

Przewidywanie klikniętych indeksów

Do przewidzenia jest kliknięty indeks itemu.

Każda sesja składa się ze słownika {'length': 25, 'ind': [0, 0, 0, 0]} gdzie length to liczba wyników wyszukiwania a ind to indeksy klikniętych wyników. Jeden użytkownik może mieć wiele takich sesji.

BU7YM5MD2HZB	[{'length': 25, 'ind': [0, 0, 0, 0]}]
SU92UN3VX8S2	[{'length': 25, 'ind': [5, 4, 11]}, {'length': 25, 'ind': [0]}, {'length': 25, 'ind': [0, 6, 11]}, {'length': 25, 'ind': [4]}, {'length': 25, 'ind': [0, 6, 12]}, {'length': 25, 'ind': [1, 2]}, {'length': 25, 'ind': [0, 8]}, {'length': 25, 'ind': [0, 0, 1, 6]}, {'length': 25, 'ind': [6]}, {'length': 17, 'ind': [8]}, {'length': 23, 'ind': [0, 5]}]
ZYOFGZBSOCNO	[{'length': 25, 'ind': [0]}]
H25VWNRELOG0	[{'length': 25, 'ind': [0]}]
318914ILC032	[{'length': 25, 'ind': [7, 0]}]
E0ZABCG33DUJ	[{'length': 25, 'ind': [5, 2]}]
M0C2Y3U1MM89	[{'length': 25, 'ind': [21, 10]}]
YZVDXEGPHJIU	[{'length': 25, 'ind': [0]}, {'length': 25, 'ind': [2, 3]}]
EX651IQMN4M3	[{'length': 25, 'ind': [0, 1]}]
JZA19MUU8GE1	[{'length': 24, 'ind': [2, 16]}, {'length': 25, 'ind': [2]}]
113S11DCJTUJ	[{'length': 25, 'ind': [4]}]
DVRKLT2AA3N9	[{'length': 25, 'ind': [12]}]
KTBKO02O4E3E	[{'length': 25, 'ind': [8]}]
MFJEX60PPKG7	[{'length': 25, 'ind': [6]}]
PMNSJLDEYUK1	[{'length': 25, 'ind': [0]}]
XVU8RFF35RPL	[{'length': 25, 'ind': [0, 0]}, {'length': 25, 'ind': [0]}, {'length': 25, 'ind': [0]}]
9TLMAVX1VJZA	[{'length': 25, 'ind': [0]}]
9YGB7B1X3WH6	[{'length': 25, 'ind': [1]}]
ESIJ4NIOOZWI	[{'length': 25, 'ind': [18]}]
UAL8B5S1F9XD	[{'length': 25, 'ind': [7]}]

Zbiór danych: https://storage.googleapis.com/logicai-recsys2019/problems/clickind.csv

Potrzebny jest model/formuła, która pod warunkiem poprzednich, obecnej sesji i rankingu rozpatrywanego elementu zwróci prawdopodobieństwo jego kliknięcia.

Zwykle kliknięcia następują w porządku, w tym momencie klasyfikacja może być np. taka:

def classify_sequence(seq):
    if len(seq) == 0:
        return "empty"
    elif len(set(seq)) == 1:
        return "constant"
    elif len(set(seq)) == len(seq) and min(seq) == seq[0] and max(seq) == seq[-1]:
        return "ideal sequence"
    elif seq == sorted(seq):
        return "non ideal sequence"
    elif len(set(seq)) == len(seq) and min(seq) == seq[-1] and max(seq) == seq[0]:
        return "ideal sequence rev"
    elif seq == sorted(seq, reverse=True):
        return "non ideal sequence rev"
    else:
        return "other"

Automatyzacja uruchamiania modelu dla każdego commita.

Prawdopodobnie nie CI bo CI nie ma konfigurowalnej maszyny.

Przetestowanie Vowpal Wabbit

Przetestowanie modeli VW

konwersja zmiennych na format VW
test modeli liniowych z interakcjami (user x properties, platform x properties, device x platform x properties itp)

Feature selection

Teraz feature'y są wrzucone trochę nadmiarowo. Trzeba jakies wyrzucić ponieważ brakuje pamięci na nowe (być może lepsze).

Write ACM Paper

Things to write about

Sprawdzić CatBoost

Wydaje się dobre do rankingowych problemów

https://github.com/catboost/benchmarks/blob/8e09ebe5b63733a053ef4668897ce4dd38ac7157/ranking/eval_params.py

sprawdzenie wszystkich lossów w Catboost względem MRR
testowanie szybkości działania i stabilności

Napisać dedykowany objective dla LGBM

PR w tym projekcie - #22
PR w forku LightGBM - logicai-io/lightgbm-recsys2019#1

https://github.com/Microsoft/LightGBM/blob/master/src/objective/rank_objective.hpp

Jakiej wersji interpretera używamy

Sugerowane jest odpalanie części kodu w pypy, które (stabilne) wspiera 3.5 co najwyżej
Zobaczyłem tu i tam f-stringi (f"{foo}") które jest nowsze.

Tuning LGBM

Optymalizacja parametrów LGBMRanker.

Przydatna praca https://github.com/logicai-io/recsys2019/blob/master/publications/burgesLearningToRank-2011.pdf

Ensembling modeli rankingowych

Modele rankingowe łączy się trochę inaczej niż zwykłe.

research ensemblingu
zaproponowanie modelu łączącego wyniki (może być jako dodatkowy model rankingowy)

Przydatna praca https://github.com/logicai-io/recsys2019/blob/master/publications/burgesLearningToRank-2011.pdf

Nowe feature'y

Taka sytuacja jest dziwna - item na 15 pozycji został kliknięty i ma znacząco różne item_id

Investigate ratings as part of interaction item deals

Prawdopodobnie trzeba to ręcznie wyciągnąć.

https://groups.google.com/forum/?utm_medium=email&utm_source=footer#!msg/recsyschallenge-2019/4Xg4cOjxFKg/tpCEB9ysAQAJ

Runtime error for quick validation

Hi, I have tried to run quick validation and I followed exactly of you instructions. After fixed several bugs in the code I finally reached the last step, but when I ran python quick_validate.py, I encountered a Key Error of 'last_event_ts', I deleted code related to last_event_ts but more Key Errors raised (e.g. last_item_clickout), so could you please provide me some tips of fixing it? Thanks a lot.

Rewrite data generation to Scala

Przetestowanie tensorflow ranking

Tensorflow ranking ma zaimplementowany loss MRR

https://github.com/tensorflow/ranking

Trzeba to sprawdzić

logicai-io / recsys2019 Goto Github PK

recsys2019's People

Contributors

Stargazers

Watchers

Forkers

recsys2019's Issues

Recommend Projects

Recommend Topics

Recommend Org