WildRecSys
1.77K subscribers
28 photos
1 file
34 links
Рассказываем про рекомендации

Для связи: @erqups
Download Telegram
🎤 Декомпозиция юзера на кластерные сущности

На прошлой неделе прошла конференция Data Fusion, где в кейс-сессии рекомендательных систем мы рассказали как не разориться на инфраструктуре при постоянном росте количества пользователей

Запись сессии

Презентация

Описание

При построении персональных рекомендаций зачастую подразумевается, что мы должны получить для каждого пользователя свою, уникальную подборку товаров. Однако в случае, когда пользователей становится слишком много, а в инфраструктуре товары хранятся с обогащением бизнес-факторами, такая схема становится все менее масштабируема.

Расскажу о том, как мы без просадки в качестве существенно сократили затраты на инфраструктуру за счет кластеризации пользователей и товаров.

💬 Основные тезисы:

- кластеризация пользователей (эмбеддинги WildBERT), создание агрегированной выдачи для кластера

- кластеризация товаров (e5) - выделение интересов, отображение пользователя в пространство интересов

- сравнение АБ-тестов для схем "храним подборку для каждого пользователя" и "храним только кластера, юзера описываем как набор кластеров и интересов" в разрезе ранжирующих метрик и затрат на инфраструктуру

- как в такой схеме не просадить качество - доранжирование по эмбедингам в онлайне в момент формирования выдачи

Скоро расскажем как выступили на Стачке в Ульяновске, которая также прошла на прошлой неделе
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥1410🍾1
WildRecSys
🎤 Декомпозиция юзера на кластерные сущности На прошлой неделе прошла конференция Data Fusion, где в кейс-сессии рекомендательных систем мы рассказали как не разориться на инфраструктуре при постоянном росте количества пользователей Запись сессии Презентация…
🪆 Сжатие без потерь: как мы уменьшили эмбеддинги для онлайн-ранжирования рекламы

18-19 апреля, в городе Ульяновск, прошла конференция Стачка. Там, помимо доклада про декомпозицию юзера, также рассказали про обучение Matryoshka представлений.

Выступал Илья Бадекин - DS команды товарных рекомендаций.

Запись доклада

Презентация

Описание

Можно сделать крутую модель, но от нее будет мало проку, если не обеспечить ее интеграцию в реальные бизнес-процессы. В докладе расскажем, откуда и зачем в команде «Товарных рекомендаций» Wildberries текстовый энкодер, на что он способен и как мы сжимали его эмбеддинги для онлайн-доранжирование рекламных баннеров по запросам пользователей: от классических PCA, автоэнкодеров и полносвязных слоев до одного интересного подхода с очень русским названием.

💬 Основные тезисы:

- Текстовый энкодер в похожих товарах: зачем?

- Что было в проде на тот момент: описание е5-multilang large; обучение, сбор хороших негативов, промпт; метрики

- Как в мл размерность уменьшать принято?

- Матрешка - как сохранить 95% от метрик
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍8🏆8🔥2🍾1
Векторное доранжирование

В сегодняшней статье рассказываем про техническое решение, которое позволяет использовать WildBERT для персонализации произвольной поюзерной выдачи без дополнительного переобучения.

Про подход, модель и инфраструктуру - тут.

С праздником!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍142🥰1
Negative sampling в рекомендательных системах

Негативное сэмплирование - один из ключевых инструментов обучения моделей на большом каталоге.

В сегодняшнем обзоре расскажем про основные стратегии сэмплирования:

In-Batch Negative Sampling

Random Negative Sampling

Frequency based Random Negative Sampling

Adaptive mixed strategy

Adaptive mixed strategy с линейной комбинацией
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍13😨21
📊 Продуктовая аналитика в рекомендациях

Исторически, в этом канале мы рассказывали в основном про различные DS/ML-подходы к построению рекомендаций, не акцентируя внимание на самом продукте.

Именно поэтому, для полноты картины, мы запускаем цикл аналитических статей.

В них мы расскажем про особенности в проведении A/B-экспериментов и аналитических исследований, построении и визуализации CJM, разработке метрик, специфичных для рекомендаций, а также о других задачах продуктовой аналитики, помогающих бизнесу принимать решения на основе данных!

Сегодня эстафетная палочка у Лёши Кузнецова - лида аналитики персональных рекомендаций. Он расскажет о своём пути и особенностях работы продуктовым аналитиком.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34👍192
Forwarded from WB Space
Приглашаем на RecSys Meetup!

Когда? 28 августа, старт в 18:00
Где? Москва + онлайн-трансляция

Обсудим актуальное из мира рекомендаций: от передовых архитектур для построения Semantic IDs и их внедрения в продуктивные системы, до тонкостей балансировки интересов пользователей и продавцов маркетплейса с помощью онлайн-доранжирования и байесовской оптимизации.

В программе:

🚩 «Semantic IDs: архитектура и наш опыт внедрения» | Александр Тришин, Data Scientist в команде персональных рекомендаций

🚩 «Счастье пользователя vs счастье продавца. Онлайн доранжирование и байесовская оптимизация в товарных рекомендациях» | Андрей Ветров, Data Scientist в команде товарных рекомендаций

🚩 «Как мы обучаем CLIP-ы для текстовых тегов» | Михаил Киндулов, CV Engineer в команде Поиска по фото

🚩 «Трансформеры в Wildberries & Russ: от гипотез до AB-тестирования» | Иван Ващенко, DS Stream Lead в команде персональных рекомендаций

Регистрация уже открыта! PS: для участия в офлайне регистрация обязательна.

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥11👍9
🪄 Как мы тестировали увеличение разнообразия в рекомендациях

В прошлый раз мы поделились нашими способами контроля разнообразия в рекомендациях. Теперь рассказываем, что получилось на практике!

Мы попробовали новый способ формирования ленты и доработали исходную гипотезу.

В текущей статье — все подробности! 👌
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥5👍4🤯1
Forwarded from WB Space
Привет! Делимся видеозаписями докладов после RecSys Meetup 🤘

1️⃣ «Трансформеры в персональных рекомендациях: от гипотез до AB-тестирования» | Иван Ващенко, DS Team Lead в команде персональных рекомендаций
VK | YouTube | Презентация

2️⃣ «Semantic IDs: архитектура и наш опыт внедрения» | Александр Тришин, DS Stream Lead в команде персональных рекомендаций
VK | YouTube | Презентация

3️⃣ «Как мы обучаем CLIP-ы для текстовых тегов» | Михаил Киндулов, Stream Lead в команде Поиск по фото
VK | YouTube | Презентация

4️⃣ «Счастье пользователя vs счастье продавца. Онлайн-доранжирование и байесовская оптимизация в товарных рекомендациях» | Андрей Ветров, Data Scientist в команде товарных рекомендаций
VK | YouTube | Презентация

Смотрите фото, чтобы оценить атмосферу. И до встречи на следующих митапах!

🌟 @wb_space
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍1110
🤔 Неочевидные подробности обучения двухбашенных моделей

Все, кто работает с рекомендациями, наверняка сталкивались с pop-bias — эффектом, при котором чем популярнее товар, тем выше вероятность, что модель снова его порекомендует.

Наш коллега Андрей Атаманюк из R&D команды подготовил статью на Хабре, где (очень) подробно разбирает эту тему. Статья обзорная и не столько про практические советы, как бороться с popularity bias, сколько про фундаментальное раскрытие причин его появления.

В материале много математики, но она спрятана под каты, так что можно легко пройтись только по основным тезисам! 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥15🥰6🤣2
📸 Как работает «Поиск по фото»?

На Wildberries можно загрузить любое изображение — и сервис почти мгновенно подберёт похожие товары из каталога. Это особенно удобно, когда сложно описать вещь словами или нужно найти «точно-такую-же-и-никакую-другую»

В новой статье наш коллега Никита Романов, техлид продуктов «Поиск по фото» и «Похожие по фото», подробно разбирает, как устроен сервис — какие модели используются, как достигается высокая скорость отклика и какие решения лежат под капотом 📝

Если вам интересно:
- как устроен продовый пайплайн поиска по фото,
- как обучается модель распознавания и зачем ей MRL
- при чем здесь LLM, и как их можно использовать для уточнения запроса текстом для реализации мультимодального поиска,

то стоит прочитать статью! 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍7