На прошлой неделе прошла конференция Data Fusion, где в кейс-сессии рекомендательных систем мы рассказали как не разориться на инфраструктуре при постоянном росте количества пользователей
При построении персональных рекомендаций зачастую подразумевается, что мы должны получить для каждого пользователя свою, уникальную подборку товаров. Однако в случае, когда пользователей становится слишком много, а в инфраструктуре товары хранятся с обогащением бизнес-факторами, такая схема становится все менее масштабируема.
Расскажу о том, как мы без просадки в качестве существенно сократили затраты на инфраструктуру за счет кластеризации пользователей и товаров.
- кластеризация пользователей (эмбеддинги WildBERT), создание агрегированной выдачи для кластера
- кластеризация товаров (e5) - выделение интересов, отображение пользователя в пространство интересов
- сравнение АБ-тестов для схем "храним подборку для каждого пользователя" и "храним только кластера, юзера описываем как набор кластеров и интересов" в разрезе ранжирующих метрик и затрат на инфраструктуру
- как в такой схеме не просадить качество - доранжирование по эмбедингам в онлайне в момент формирования выдачи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥14❤10🍾1
WildRecSys
🪆 Сжатие без потерь: как мы уменьшили эмбеддинги для онлайн-ранжирования рекламы
18-19 апреля, в городе Ульяновск, прошла конференция Стачка. Там, помимо доклада про декомпозицию юзера, также рассказали про обучение Matryoshka представлений.
Выступал Илья Бадекин - DS команды товарных рекомендаций.
➡ Запись доклада
➡ Презентация
❓ Описание
Можно сделать крутую модель, но от нее будет мало проку, если не обеспечить ее интеграцию в реальные бизнес-процессы. В докладе расскажем, откуда и зачем в команде «Товарных рекомендаций» Wildberries текстовый энкодер, на что он способен и как мы сжимали его эмбеддинги для онлайн-доранжирование рекламных баннеров по запросам пользователей: от классических PCA, автоэнкодеров и полносвязных слоев до одного интересного подхода с очень русским названием.
💬 Основные тезисы:
- Текстовый энкодер в похожих товарах: зачем?
- Что было в проде на тот момент: описание е5-multilang large; обучение, сбор хороших негативов, промпт; метрики
- Как в мл размерность уменьшать принято?
- Матрешка - как сохранить 95% от метрик
18-19 апреля, в городе Ульяновск, прошла конференция Стачка. Там, помимо доклада про декомпозицию юзера, также рассказали про обучение Matryoshka представлений.
Выступал Илья Бадекин - DS команды товарных рекомендаций.
Можно сделать крутую модель, но от нее будет мало проку, если не обеспечить ее интеграцию в реальные бизнес-процессы. В докладе расскажем, откуда и зачем в команде «Товарных рекомендаций» Wildberries текстовый энкодер, на что он способен и как мы сжимали его эмбеддинги для онлайн-доранжирование рекламных баннеров по запросам пользователей: от классических PCA, автоэнкодеров и полносвязных слоев до одного интересного подхода с очень русским названием.
- Текстовый энкодер в похожих товарах: зачем?
- Что было в проде на тот момент: описание е5-multilang large; обучение, сбор хороших негативов, промпт; метрики
- Как в мл размерность уменьшать принято?
- Матрешка - как сохранить 95% от метрик
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍8🏆8🔥2🍾1
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Векторное доранжирование в Wildberries
Привет! Меня зовут Тришин Александр, я Data Scientist в команде персональных рекомендаций Wildberries. Когда вы заходите на главную страницу WB, листаете похожие в карточке товара, ищете подарок в поиске или просматриваете тематическую подборку — вы взаимодействуете…
🔥25👍14❤2🥰1
Негативное сэмплирование - один из ключевых инструментов обучения моделей на большом каталоге.
В сегодняшнем обзоре расскажем про основные стратегии сэмплирования:
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Negative Sampling для рекомендательных систем: Практический обзор
Современные рекомендательные системы стремятся предсказать, с какими товарами или контентом пользователь будет взаимодействовать чаще. При этом они работают каталогами, насчитывающими миллионы или даже миллиарды позиций. Oбозначение каждого невзаимодействовавшего…
🔥17👍13😨2❤1
Исторически, в этом канале мы рассказывали в основном про различные DS/ML-подходы к построению рекомендаций, не акцентируя внимание на самом продукте.
Именно поэтому, для полноты картины, мы запускаем цикл аналитических статей.
В них мы расскажем про особенности в проведении A/B-экспериментов и аналитических исследований, построении и визуализации CJM, разработке метрик, специфичных для рекомендаций, а также о других задачах продуктовой аналитики, помогающих бизнесу принимать решения на основе данных!
Сегодня эстафетная палочка у Лёши Кузнецова - лида аналитики персональных рекомендаций. Он расскажет о своём пути и особенностях работы продуктовым аналитиком.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Заметки продуктового аналитика
Привет, меня зовут Алексей Кузнецов. Я лид команды продуктовой аналитики персональных рекомендаций. Мы с командой проводим A/B-эксперименты, занимаемся продуктовыми исследованиями, разрабатываем метрики и решаем множество других задач, направленных на улучшение…
🔥34👍19❤2
Forwarded from WB Space
Приглашаем на RecSys Meetup!
Когда? 28 августа, старт в 18:00
Где? Москва + онлайн-трансляция
Обсудим актуальное из мира рекомендаций: от передовых архитектур для построения Semantic IDs и их внедрения в продуктивные системы, до тонкостей балансировки интересов пользователей и продавцов маркетплейса с помощью онлайн-доранжирования и байесовской оптимизации.
В программе:
🚩 «Semantic IDs: архитектура и наш опыт внедрения» | Александр Тришин, Data Scientist в команде персональных рекомендаций
🚩 «Счастье пользователя vs счастье продавца. Онлайн доранжирование и байесовская оптимизация в товарных рекомендациях» | Андрей Ветров, Data Scientist в команде товарных рекомендаций
🚩 «Как мы обучаем CLIP-ы для текстовых тегов» | Михаил Киндулов, CV Engineer в команде Поиска по фото
🚩 «Трансформеры в Wildberries & Russ: от гипотез до AB-тестирования» | Иван Ващенко, DS Stream Lead в команде персональных рекомендаций
Регистрация уже открыта!PS: для участия в офлайне регистрация обязательна.
🌟 @wb_space
Когда? 28 августа, старт в 18:00
Где? Москва + онлайн-трансляция
Обсудим актуальное из мира рекомендаций: от передовых архитектур для построения Semantic IDs и их внедрения в продуктивные системы, до тонкостей балансировки интересов пользователей и продавцов маркетплейса с помощью онлайн-доранжирования и байесовской оптимизации.
В программе:
Регистрация уже открыта!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥11👍9
🪄 Как мы тестировали увеличение разнообразия в рекомендациях
В прошлый раз мы поделились нашими способами контроля разнообразия в рекомендациях. Теперь рассказываем, что получилось на практике!
Мы попробовали новый способ формирования ленты и доработали исходную гипотезу.
В текущей статье — все подробности!👌
В прошлый раз мы поделились нашими способами контроля разнообразия в рекомендациях. Теперь рассказываем, что получилось на практике!
Мы попробовали новый способ формирования ленты и доработали исходную гипотезу.
В текущей статье — все подробности!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Управление разнообразием рекомендаций. Результаты AB
Введение Привет 👋! В одной из прошлых статей мы обсуждали, как можно управлять разнообразием в рекомендациях. На тот момент у нас в проде жила версия с квотами и мы хотели потестировать новую идею Category-Split инференса. Тест шел долго и упорно, но мы добились…
❤16🔥5👍4🤯1
Forwarded from WB Space
Привет! Делимся видеозаписями докладов после RecSys Meetup 🤘
1️⃣ «Трансформеры в персональных рекомендациях: от гипотез до AB-тестирования» | Иван Ващенко, DS Team Lead в команде персональных рекомендаций
VK | YouTube | Презентация
2️⃣ «Semantic IDs: архитектура и наш опыт внедрения» | Александр Тришин, DS Stream Lead в команде персональных рекомендаций
VK | YouTube | Презентация
3️⃣ «Как мы обучаем CLIP-ы для текстовых тегов» | Михаил Киндулов, Stream Lead в команде Поиск по фото
VK | YouTube | Презентация
4️⃣ «Счастье пользователя vs счастье продавца. Онлайн-доранжирование и байесовская оптимизация в товарных рекомендациях» | Андрей Ветров, Data Scientist в команде товарных рекомендаций
VK | YouTube | Презентация
Смотрите фото, чтобы оценить атмосферу. И до встречи на следующих митапах!
🌟 @wb_space
VK | YouTube | Презентация
VK | YouTube | Презентация
VK | YouTube | Презентация
VK | YouTube | Презентация
Смотрите фото, чтобы оценить атмосферу. И до встречи на следующих митапах!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍11❤10
Все, кто работает с рекомендациями, наверняка сталкивались с pop-bias — эффектом, при котором чем популярнее товар, тем выше вероятность, что модель снова его порекомендует.
Наш коллега Андрей Атаманюк из R&D команды подготовил статью на Хабре, где (очень) подробно разбирает эту тему. Статья обзорная и не столько про практические советы, как бороться с popularity bias, сколько про фундаментальное раскрытие причин его появления.
В материале много математики, но она спрятана под каты, так что можно легко пройтись только по основным тезисам!
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Неочевидные подробности обучения двухбашенных моделей
Введение Привет, Habr! Меня зовут Андрей Атаманюк, я Data Scientist в R&D команде рекомендательных систем Wildberries & Russ. В этой статье я разберу тонкости обучения двухбашенных моделей...
👍16🔥15🥰6🤣2
На Wildberries можно загрузить любое изображение — и сервис почти мгновенно подберёт похожие товары из каталога. Это особенно удобно, когда сложно описать вещь словами или нужно найти «точно-такую-же-и-никакую-другую»
В новой статье наш коллега Никита Романов, техлид продуктов «Поиск по фото» и «Похожие по фото», подробно разбирает, как устроен сервис — какие модели используются, как достигается высокая скорость отклика и какие решения лежат под капотом
Если вам интересно:
- как устроен продовый пайплайн поиска по фото,
- как обучается модель распознавания и зачем ей MRL
- при чем здесь LLM, и как их можно использовать для уточнения запроса текстом для реализации мультимодального поиска,
то стоит прочитать статью!
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
CLIP + LLM в проде: мультимодальный «Поиск по фото» для маркетплейса
Привет! Меня зовут Никита Романов, и я техлид продуктов «Поиск по фото» и «Похожие по фото» в Wildberries. За спиной — более семи лет опыта в сфере CV. В этой статье мы обсудим онлайн сервис «Поиск по...
🔥22👍7