Information Retriever

Итоги года на канале.

Где-то чуть больше года назад я в порыве ночных раздумий понял, что пора бы завести канал. Еще помню, как выбирал название: основной вариант был "arxiv weekly" — именно так называлась еженедельная сводка обзоров статей, которую я вёл в Яндексе. Вариант "Information Retriever" с ретривером на аватарке был скорее шуточный, но каким-то образом реализовался. Ни о чем не жалею =)

Началось все с того, что после ухода Миши Ройзнера @WazowskiRecommends я вызвался подхватить организацию научного семинара по рекомендательным системам в Яндексе. Каждую неделю мы разбирали по две статьи. Я искал докладчиков, сам регулярно выступал и помогал подбирать статьи для выступлений. Чтобы было проще искать статьи, стал выпускать в чате семинара дайджест "arxiv weekly": каждую неделю просматривал все статьи, выходящие в секции arxiv cs/IR, отбирал 5-10 штук, писал про них краткие хайлайты в пару строчек. Постепенно ребята, уходящие из Яндекса, убедили меня что было бы круто перенести "arxiv weekly" в публичное пространство.

Еще в какой-то момент на нетворкингах люди стали благодарить за доклады про трансформерную персонализацию. Когда Саша Сидоров подошел и сказал, что в Wildberries смогли на основе этих докладов что-то внедрить, у меня прямо сдвиг парадигмы произошел =) Появилось понимание, что могу рассказывать что-то интересное и полезное для широкой публики, что эти доклады кто-то смотрит.

В совокупности эти два фактора, вероятно, и сподвигли на создание канала. Первые посты были очень корявые; их чтение вызывает те же ощущения, которые в эпоху вконтакте вызывало перечитывание старых переписок :) Тем не менее, постепенно сформировался какой-то свой, «авторский», стиль; о чем и как я пишу. Дальше идут итоги года в постах и выступлениях.

Выступления:

* Про нейросетевое ранжирование на ML party.
* Про индустриальные тренды рексистем на Датафесте.
* Best practices доклад про трансформерную персонализацию на Turbo ML Conf, который я попытался сделать полезнее и информативнее всех прошлых.
* Про кейсы, в которых нам пригодились статьи на практике на рекомендательном митапе от Сбера.

Посты:

* Про (1) проблемы next item prediction, (2) двухбашенные модели и logQ-коррекцию, (3) обучаемые векторы для рексистем. У нас с командой очень сильное желание сделать свой курс по рексистемам: такие посты похожи на то, что хотелось бы покрыть в курсе. Процесс создания хорошего курса долгий и сложный, пока всё на стадии сбора материала: я собираю, "коллекционирую" различные термины, концепты, теории, с которыми сталкиваюсь при работе и в статьях. Этот процесс может занять годы =)

* Про (1) ранжирование в Пинтересте, (2) ранжирование в Ютубе, (3) рекомендации похожих пинов в Пинтересте. Изначально я собирал много system design заметок про то, как устроены рекомендации в разных известных сервисах. Собирал статьи, парсил блоги на медиуме, искал выступления. Пока что это, пожалуй, один из наиболее сложных типов постов для реализации.

* Про рабочие проекты и команду: (1) чтение статей для r&d, (2) графовые нейросети, (3) нейросетевое ранжирование, (4) чем занимается наша команда, (5) трансформер с миллиардом параметров. Писать про команду приятно и просто, здесь я недорабатываю :)

* Серия постов про праздник рекомендательных систем на ACM RecSys 2024: 1, 2, 3, 4, 5, 6, 7.

* "Кулуарные" посты, в которых пытался передать атмосферу нетворкинга и какие-то приватные, но не очень, обсуждения: (1) конфа вышки, (2) датафест, (3) turbo ml conf, (4) pml conf.

* Обзорные посты с кучей ссылок на статьи: (1) NLP образца 2020-го года, (2) what's on google's deepmind, (3) скейлинг в рексистемах, (4) sigir 2024, (5) топ статей про нейросети в рекистемах.

Спасибо, что были со мной этот год! И до встречи в следующем :)

👍79❤41🔥33

4.7K viewsedited 12:28

Information Retriever

Data Ёлка 2024.

Завтра буду рассказывать своё решение VK RecSys Challenge на дата ёлке. Приходите пообщаться! :)

P.S: собираюсь 20 минут со сцены говорить, что нейросети — это хорошо =)

❤31👍12🔥8

3.24K viewsedited 17:21

Information Retriever

Data Ёлка 2024, кулуары.

* Присутствие ребят, занимающихся рексистемами, было меньше чем обычно на таких мероприятиях. Никого не заметил из вб, Т-Банка. Из Озона и Авито как будто было по одному человеку

* В vk внедрили гетерогенные графовые нейросети. Вроде бы что-то похожее на то видение, которое я описывал на data fest 2024. Круто!

* В Авито экспериментируют с семантическими айдишниками, но пытаются делать их “контентными”, предсказывая параметры айтемов. Там есть проблемы, но все равно круто! Молодцы)

* Oura кольцо набирает популярность в ML комьюнити. Люди активно интересуются функционалом :)

* Некий товарищ из Сбера в ответ на вопрос какими рекомендательными системами занимается, загадочно улыбнулся и сказал: “Всякими”. Также сказал, что “большие таблички превращает в маленькие”. Удивительно =)

* Где-то (я уже забыл где) рекомендательным инженерам раздали цели напрямую в деньгах =)

* Неоднократно люди подходили поспрашивать про стажировку в Яндексе. Основной консерн — очень сложно попасть. Ответ у меня всегда следующий — люди довольно часто попадают в Яндекс не с первой попытки. Лично знаю людей, которые много раз пытались прежде чем получилось. Надо просто не терять надежду и продолжать пытаться. Не дайте одной неудачной попытке себя остановить :)

* Провел одну рабочую встречу прямо на месте. Начал со слов “у меня нет ресурсов”

* В Авито определение рекомендательного ДСа — это если ты работаешь в команде Миши Каменщикова :) Миша, кстати, занял в соревновании четвертое место, но не смог выступить, так как находится в Тайланде. Посочувствуем…

* В рамках разных вопросов обсудили, что в рекомендательной R&D команде должна быть и (1) свобода (без exploration нельзя сделать что-то действительно новое и сложное), и (2) дисциплина (постоянное чтение статей, поддержание и развитие собственного математического аппарата. Вместо более простых инкрементальных улучшений существующих технологий пытаемся придумывать что-то новое сложное, фундаментальное). Вообще в меня уже закрадывается желание сделать доклад на тему построения R&D команды :)

* Вероятно, буду делать на Датафесте доклад (если пустят) про масштабирование рекомендательных систем; не просто визионерский, но и с нашими результатами. Это уже совсем скоро :)

P.S: выступление в трансляцию не попало, но организаторы обещали выложить запись. Априорно мне самому выступление понравилось, оно было в совсем свободном формате, поэтому я просто что-то рассказывал на интересные мне темы и даже слегка шутил. Почти как пост на канале =)

🔥62👍23❤16🤯1

4.84K views08:39

Information Retriever

Data Ёлка 2024, кулуары. * Присутствие ребят, занимающихся рексистемами, было меньше чем обычно на таких мероприятиях. Никого не заметил из вб, Т-Банка. Из Озона и Авито как будто было по одному человеку * В vk внедрили гетерогенные графовые нейросети. Вроде…

А вот и видеозапись доклада:

https://ods.ai/competitions/aivkchallenge/video

https://vkvideo.ru/video-164555658_456241336

VK Видео

Кирилл Хрыльченко | VK RecSys Challenge. Разбор решения

Спикер: Кирилл Хрыльченко, Руководитель группы исследования перспективных рекомендательных технологий, Яндекс Data Ёлка 2024 в гостях у VK: https://ods.ai/events/data-elka-24-vk-offline VK RecSys Challenge: https://ods.ai/competitions/aivkchallenge _____…

🔥36👍9👎1

4.3K views20:37

Information Retriever

Ребята из команды API Яндекс карт разработали нейросетевой геокодер (маппинг из текстового запроса в координаты) и написали про это лонгрид на Хабре — https://habr.com/ru/companies/yandex/articles/877086/

Хабр

Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран

Давным‑давно, когда мир ML состоял из бустингов, линейных моделей и статистических подходов, перед нашей командой API Яндекс Карт стояла задача сделать качественный Геокодер. Это алгоритм,...

🔥31👍6❤2👏1

4.34K views08:35

Information Retriever

Канал Саши Петрова про рексистемы.

Я в октябре советовал канал Олега Лашинина @recsys_for_all, а недавно канал завел Саша Петров. Мне кажется Саша в представлении не нуждается, автор recsys best paper 2023 gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling и большого количества других статей, опубликованных на топовых конференциях. Советую заглянуть на канал и подписаться: @Recsys_IR_Travel.

❤22💯2

3.13K views10:54

Information Retriever

Вот любят упоминать, дескать, Илья Суцкевер — нижегородец. А я вам сейчас расскажу про настоящего нижегородца! Чем примечателен герой сегодняшнего поста, Фёдор Борисюк:

1. В какой-то момент я интересовался мультимодальными векторными представлениями для товаров, в первую очередь на основе картинок и текстов. Когда делал обзор на тему, в него вошли статьи от Фейсбука, в авторах которых фигурирует Фёдор:
* MSURU: Large Scale E-commerce Image Classification with Weakly Supervised Search Data (2019)
* GrokNet: Unified Computer Vision Model Trunk and Embeddings For Commerce (2020)
Они не про мультимодальные представления per se, но являются одними из первых работ про визуальные эмбеддинги для товаров.

2. У Фейсбука на момент 2022-го года было не очень много хороших статей про нейросетевые рекомендации, но вот эти две статьи, в которых Фёдор тоже числится в авторах, мне нравились:
* Que2Search: Fast and Accurate Query and Document Understanding for Search at Facebook (2021). Там вышло продолжение, Que2Engage, но уже без Фёдора
* NxtPost: User to Post Recommendations in Facebook Groups (2022)

3. После Фейсбука в 2022-м году Фёдор перешел в Линкедин. За 2024-й год появилось очень много статей в соавторстве с ним:
* MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in Recommendation Systems
* LinkSAGE: Optimizing Job Matching Using Graph Neural Networks
* Learning to Retrieve for Job Matching
* LiRank: Industrial Large Scale Ranking Models at LinkedIn (первый автор)
* LiGNN: Graph Neural Networks at LinkedIn (первый автор)
* LiMAML: Personalization of Deep Recommender Models via Meta Learning
* LiNR: Model Based Neural Retrieval on GPUs at LinkedIn (первый автор)
* Efficient user history modeling with amortized inference for deep learning recommendation models

Разумеется, в написании этих статей участвовало много людей, но для меня три самые хорошие из них — те, в которых Фёдор первый автор. Причем, с довольно большим отрывом.

А пару дней назад вышла ещё одна статья — From Features to Transformers: Redefining Ranking for Scalable Impact. И опять Фёдор первый автор. По беглому просмотру выглядит так, что теперь уж точно Линкедин по рекомендательным технологиям вышел на третье место, обогнав Пинтерест. Завели свой аналог hstu, ещё и с семантическими айдишниками что-то сделали. Предвижу комментарии про то, что рекомендации в Линкедине плохие и вообще непонятно что там можно рекомендовать — здесь мне сложно прокомментировать, сужу в первую очередь не как пользователь, а как читатель статей. Захожу в Линкедин не очень часто, но когда захожу — релевантные посты вроде подсовывает.

Аналогично тому, как мы изучили карьеру Эда Чи через Линкедин, можно посмотреть и на карьеру Фёдора (linkedin):
* В 2007-м закончил магистратуру в нижегородском Университете Лобачевского; там же получил степень кандидата в 2010-м году, кандидатская про поиск текстовых документов. Параллельно с учёбой работал в Mera Networks, причем делал что-то очень хардовое, кодил на C/C++, джаве, etc
* С 2011 по 2015 работал в Microsoft, уже занимался машинным обучением
* Два года проработал в Линкедине, в качестве Senior Software Engineer. Занимался рекомендательными системами, написал две статьи (как первый автор)
* Ушёл в Фейсбук, проработал там почти 6 лет; сначала занимался компьютерным зрением, затем снова рекомендательными системами. Написано, что был Senior Staff Technical Lead Engineering Manager
* Вернулся в Линкедин в качестве Principal Staff Engineer, и последние два года двигает вперед тамошние технологии семимильными шагами

Путь длиной в 19 лет, если считать от начала работы, и длиной в 15 лет, если с окончания аспирантуры. В отличие от Эда Чи, здесь всё выглядит стремительней, и при этом с периодическими переходами между компаниями. Микрософт, Линкедин, Фейсбук, Линкедин. А началось всё с Университета Лобачевского :)

Морали у поста никакой нет. Просто хотелось подсветить, что есть у нас и настоящие нижегородцы с достижениями! :) Напоследок прикладываю доклад Фёдора про Image Search at Facebook шестилетней давности.

YouTube

Image Search at Facebook: Making sense of one of the largest image databases in the world

Fedor Borisyuk, Technical Leader in the Domain of Computer Vision at Facebook
Presented at MLconf 2018
Abstract: Sharing of photos has become one of the primary ways for people to communicate. Billions of photos are uploaded on Facebook every single day.…

❤39🔥14👍9

4.38K viewsedited 14:24

Information Retriever

Forwarded from Свидетели сингулярности (Ilia Udalov)

#05🎙️А у нас новый выпуск про рекомендательные системы с Кириллом Хрыльченко 😎

Яндекс Музыка | Apple | Spotify | Telegram | Mave

Кирилл руководит R&D направлением рекомендательных систем в Яндексе. В этом выпуске мы поговорим о следующем:
- почему в 2025 году надо заниматься рекомендательными системами, а не LLM
- про метрики, баесы и где в рекомендациях можно ошибиться на ровном месте
- почему будущее за нейросетевым ранжированием, а не за бустингами
- 4 проблемы рекомендаций
- модные штуки: семантические id, почему на самом деле рекомендации - это RL, трансформеры, генеративные рекомендации
- ещё поговорим про рекомендации музыки, куда же без этого!

Подписывайтесь на телеграм-канал Кирилла @inforetriever
Пейпер про HSTU: https://arxiv.org/abs/2402.17152

👍39❤16🔥4

4.23K views16:33

Information Retriever

Forwarded from Рекомендательная [RecSys Channel]

Какие рексис-тренды будут развивать в Яндексе в 2025 году

Трендов, которые могут повлиять на рексис в этом году, — довольно много. Мы решили разузнать, на какие из них точно планируют сделать упор в Яндексе. Для этого поговорили с Группой исследования перспективных рекомендательных технологий. А на карточках собрали самые горячие направления, по мнению команды исследователей.

@RecSysChannel

🔥24👍8❤3

4.27K views07:44

About

Blog

Apps

Platform