Рекомендательные системы в наше время играют очень важную роль, поскольку позволяют оптимизировать процесс поиска нужной информации и контента в обширном интернет-пространстве. Тем не менее, реализация качественных рекомендательных систем является нетривиальной задачей, особенно в технологически продвинутых средах, таких как Telegram.
Так как Telegram не имеет собственной рекомендательной системы, нами была реализована система онлайн-рекомендаций в виде telegram-бота. За 4 месяца сбора данных удалось собрать около 200 000 каналов и 80 000 000 публикаций, каждый из которых содержит в себе реакции, комментарии, пересылы и количество просмотров. После фильтрации публикации для обучения осталось около 10 000 000 постов.
Из соображений конфиденциальности мы публикуем только часть данных и не публикуем обученные модели в целях защиты уникального проекта от копирования.
Были протестированы разные варианты получения текстовых эмбеддингов из постов: https://colab.research.google.com/drive/1tENiI5MqcHZqJYE5GMlMEej6tFCw3U8H?usp=sharing