Information Retriever
3.44K subscribers
254 photos
1 video
8 files
127 links
Download Telegram
ysda_neural_retrieval.pdf
1.2 MB
241👍7😈3👾3👻1
Датафест 2025.

На Датафесте 2025 в рексис треке будет доклад от вашего покорного слуги про масштабирование рекомендательных систем! Приходите посмотреть как я за 30 минут рассказываю 70+ слайдов :)

Еще от нашей команды будет доклад про графовые нейросети для рекомендаций в треке Яндекса. Выступит Артём Матвеев. Тоже приходите послушать!
👍49🔥228👀3😁1
Лекция про графовые модели для рекомендательных систем в ШАД.

Сегодня в ШАДе пройдет сдвоенная лекция про графы в рексистемах для курсов по графам в машинном обучении и по рексистемам.

Содержание:

1. Введение в рексистемы: что такое рексистемы, многостадийность, генерация кандидатов и ранжирование. Матрица релевантностей, матричная факторизация, проблема тяжелого хвоста

2. Графовая постановка рексистем: двудольный user-item граф, ограничения классической коллаборативной фильтрации, NGCF (neural graph collaborative filtering), LightGCN

3. GraphSAGE, Pinterest, Pin-board граф, случайные блуждания для рекомендаций (Pixie), модель PinSage

4. Продвинутые рексистемы: нейросетевая генерация кандидатов (двухбашенность и лоссы), нейросетевое ранжирование (примерная архитектура). Почему важен representation learning

5. Гетерогенные графы в рекомендациях, графы знаний, TransE, TwHIN, MultiBiSage, чуть-чуть про PinnerFormer и OmniSage

6. Небольшой кусочек про графы в других компаниях: LinkedIn, Spotify, Netflix, Snapchat, etc

Лекция будет на стыке двух миров — графового и рекомендательного, поэтому сделана более самодостаточно; чуть-чуть повторяет какие-то вещи из отдельных курсов. Ну и более поверхностная, чем прошлые лекции. Цель в первую очередь заинтересовать в теме и показать реальные применения.

P.S: презентация делалась в максимально сжатые сроки, поэтому после прошлых двух скидывать её будет даже немного стыдно. Но я наверно все равно скину :)
50👍24🔥12
ysda_recsys_graphs.pdf
13.9 MB
🔥32🤝106
Вредные советы по рекомендательным системам.

Пришла идея сделать “Вредные советы” для рекомендательных инженеров. Генерации в Sora уже кончились, а потенциальных карточек ещё много :) Сделать стиль иллюстраций более похожим на оригинальную книжку пока не получилось.
40😁33🔥10💩1
ARGUS.pdf
5.2 MB
Data Fest 2025.

Выступил! Получилось за 36 минут рассказать 76 слайдов. Чтение лекций в ШАДе натренировало меня говорить быстро, но лекторским монотонным голосом :) Я чуть-чуть подустал за ближайшие полтора месяца, это по выступлению хорошо заметно — ни одной улыбки, даже шутки говорил с каменным лицом :)

Запись выступления можно посмотреть здесь: https://m.vkvideo.ru/video-164555658_456241373 (ссылку на ютуб выложу как только появится), по таймингам — начинается где-то на 4h:32m.

Что обсуждали в кулуарах:
* Аргуса. Долгое время это был внутренний яндексовый термин, теперь когнитивный диссонанс возникает каждый раз, когда его кто-то вне Яндекса произносит :)
* Рекомендательные трансформеры и всё, что с ними связано. Вообще, в этот раз очень много хороших вопросов задавали. Чувствуется что понимание рекомендательных трансформеров растёт, гораздо больше ребят в этом начинает хорошо разбираться! А ещё было даже такое, что заметили связь между моим решением vk recsys challenge и Аргусом :)
* Графовые нейросети, мультимодальные векторы, семантические айдишники. У ребят из R&D команды vk (Максима Утушкина и Ильи Алтухова) были клёвые доклады!
* Обсуждали статьи, а именно — подачу статей на конфу RecSys. Это была почти психотерапия, на которой можно было пожаловаться на ревьюверов :)

Презентацию прикладываю.
🔥8017👏9👍2
Поздравляем Сашу!!
🔥53
Вчера защитил диссертацию. Обычно в Великобритании после защиты рецензенты просят внести правки, но в моем случае я защитился без необходимости исправлять что-либо; так что можно считать что я теперь Dr. Petrov :-)

Диссертацией скоро поделюсь тут.
🔥1179👍8
Тренды в RecSys. Финальная лекция курса по рекомендательным системам в ШАД.

Вот и подошла к концу первая итерация нашего курса! Доделываю финальные слайды последней лекции на последнем издыхании)) Опыт очень крутой (надеюсь, не только для меня), как-нибудь позже напишу отдельный развернутый пост по результатам. А пока ловите содержимое финальной лекции:

1. Industry vs Academy, индустриальные тренды и откуда их узнавать. Отставание от других областей, bitter lesson, сами тренды.

2. Масштабирование. Scaling hypothesis, четыре оси масштабирования рексистем. Матрицы эмбеддингов, датасеты, контекст (признаки и история пользователя), энкодеры.

3. Actions speak louder than words. DLRM, inductive bias, генеративная постановка ранжирования и кандгена, HSTU, результаты, критика подхода.

4. LLM x RecSys. Мотивация, эволюция подходов, проблемы, recommendation-language gap.

5. Семантические айдишники. Мотивация, generative retrieval, вариационные автокодировщики, RQ-VAE, public и proprietary сетапы обучения, применения, оценки качества от Google

6. Foundation модели и кросс-платформенность

7. Снова про генеративные модели. OneRec, PinRec — описания подходов и результаты

Что не влезло — RL, mixture of logits, GPU Retrieval, онлайн дообучение, NRT-инференс. И про LLM будет очень поверхностное обсуждение.

P.S: слайды как всегда скину после лекции :)
43🔥21👍9
Yambda-5B — A Large-Scale Multi-modal Dataset for Ranking and Retrieval.

Ребята опубликовали гигантский музыкальный датасет с прослушиваниями Яндекс Музыки, охватывающий 11 месяцев активности 10 миллионов пользователей. В нём аж 4.8 миллиарда user-item взаимодействий! Я сам не участвовал, но два человека из нашей R&D команды тоже поконтрибьютили.

Это все ещё где-то в 60 раз меньше, чем данные, на которых обучался Аргус. Но, тем не менее, гораздо больше, чем стандартные датасеты, которые часто используют в статьях (сотни тысяч или десятки миллионов взаимодействий). Сделали три разные по размеру версии датасета; и видно, что SASRec начинает выигрывать у других алгоритмов только на датасете “среднего” размера с 500 млн взаимодействий, а на 50 млн проигрывает ItemKNN’у. При обучении нейросеток важно использовать много данных :)

Для деления на трейн/тест используется разделение по времени (time split) вместо leave-one-out. Почему это хорошо, наверное, уже можно не объяснять. Получилось даже так, что на задаче предсказания лайков выигрывает топ популярного, учитывающий затухание по времени. Напомнило статью, в которой затюненный топ популярного выигрывает у других моделей.

Про бейзлайны — SASRec не тюнился, а для остальных алгоритмов гиперпараметры подбирались на валидации по последнему дню трейна. В идеале, валидацию нужно зафиксировать и явно отделить от трейна, чтобы результаты тюнинга моделей можно было сравнивать между разными статьями. Ещё из статьи не совсем понятно, сколько раз запускались обучения отдельных моделей — было ли усреднение результатов запусков с разными сидами. Возможно на датасете такого размера это не так важно.

Важный момент — в качестве целевой задачи для оценки качества решили сделать предсказание лайков / прослушиваний за следующий день. Такая постановка немного похожа на PinnerFormer. Это задача генерации кандидатов, не ранжирования. Причём не привычный исследователям next item prediction, когда мы глядя на историю предсказываем следующее взаимодействие, а именно предсказание каких-то будущих положительных взаимодействий в окне размера один день. Для SASRec’а эмбеддинг пользователя фиксируется на последний момент трейна, и из него делается предсказание сразу всех лайков за следующий день.

По-хорошему, при такой оценке качества SASRec и остальные модели нужно обучать по-другому, решая именно задачу предсказания будущего лайка в окне в один день, а не задачу предсказания следующего лайка. Как это (плюс-минус) делают в Пиннерформере. Возможно тогда отрыв от более эвристических алгоритмов будет еще больше. Мы такие модельки часто обучаем в качестве оффлайновых генераторов кандидатов, пересчитывающих эмбеддинги пользователей раз в день.

Кроме вышесказанного, было бы круто в будущем добавить следующие штуки:
* расширить валидацию и тест до недели
* добавить оценку качества ранжирования (не NDCG для задачи ретривала, а именно для задачи impression-aware ранжирования)
* добавить более стандартную next item prediction постановку
* сделать отдельный срез оценки качества для новых пользователей (возможно какой-то общий эвал, при котором учитываются и новые пользователи тоже), потому что они тоже важны

А ещё ребята написали про датасет пост на Хабре и выложили препринт статьи на архиве.
🔥40👍98💩4🤡1
Конференция «Рекомендательные системы: новые алгоритмы и современная практика»

5 июня будет конференция по рексистемам от Вышки. Именно с неё когда-то в декабре 2023-го года началась рубрика канала под названием “Кулуары” :)

В прошлый раз я пришёл как слушатель и на каждый доклад задавал каверзные вопросы. В этот раз буду в качестве докладчика — жду каверзных вопросов в свой адрес :)

Ссылка на конференцию — https://cs.hse.ru/recsys-2025/?_r=34710201747305273.27909. Ещё не поздно зарегистрироваться!

А ещё там будет постер-сессия, на которой возможно будет постер от наших ребят про Yambda.
🔥35👍5
Вредные советы по рекомендательным системам, часть 2.
🔥42😁11👍105