Привет! Это канал, посвященный рекомендательным системам. Здесь мы, RecSys-специалисты из Яндекса, будем делиться опытом, рассказывать об интересных случаях из практики, искать ответы на острые вопросы и комментировать свежие статьи. Подписывайтесь, если вам близка тема RecSys и вы не прочь обсудить её в уютной компании единомышленников.
Персонализация рекламы в Meta*
Meta — корпорация с огромным трафиком и сотнями сервисов. Учить user-эмбеддинги под каждую задачу непрактично. Для решения проблемы создан фреймворк SUM (Scaling User Modeling), а для адаптации к изменениям user-фич и поддержки актуальности эмбеддингов — асинхронная онлайн-платформа SUM (SOAP). Они работают в проде и, по словам авторов статьи, дают хороший прирост конверсий и экономят 15,3% затрат на инфраструктуру.
Две башни
В модели 2 главные сущности: башни user и mix. В user-башне собирают фичи — в сумме 1600. Они делятся на dense и sparse — во вторую категорию попадают, например, UserID и PageID. В interaction-модулях применяют DCN-модель и MLP-миксер.
На mix подают результаты в виде двух эмбеддингов размерностью в 96. Они джойнятся с фичами баннера. Обучают mix с помощью multi-task cross-entropy loss. Сюда осознанно не передают user-фичи, «мотивируя» user-башню узнавать о пользователе как можно больше.
SOAP
SOAP получает запрос, по которому из Feature Store достаются и усредняются 2 предыдущих user-эмбеддинга. Их отправляют в downstream-модель — она показывает рекламу. В то же время асинхронно вычисляют и записывают текущие эмбеддинги. Благодаря этому модель получает данные за 30 мс.
Возможная проблема — Embedding Distribution Shift. Появляются новые ID, с которыми юзеры не взаимодействовали, а существующие — устаревают. Поэтому при выкатке новой версии эмбеддингов их логируют. Мы спрашивали авторов, нет ли у них Feature Store с тайм-машиной для расчёта эмбеддингов. Ответ — нет.
Дообучение
Команда попробовала 4 разных подхода к дообучению модели:
— Frozen User Model — дообучение раз в месяц;
— Offline Batch — обновление раз в день;
— Online Real-Time Serving — обновление текущих эмбеддингов;
— Async Online Serving — тот самый SOAP.
В статье есть результаты экспериментов со всеми подходами. Обсудим в комментариях?
Разбор подготовил ❣ Константин Ширшов
@RecSysChannel
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
Meta — корпорация с огромным трафиком и сотнями сервисов. Учить user-эмбеддинги под каждую задачу непрактично. Для решения проблемы создан фреймворк SUM (Scaling User Modeling), а для адаптации к изменениям user-фич и поддержки актуальности эмбеддингов — асинхронная онлайн-платформа SUM (SOAP). Они работают в проде и, по словам авторов статьи, дают хороший прирост конверсий и экономят 15,3% затрат на инфраструктуру.
Две башни
В модели 2 главные сущности: башни user и mix. В user-башне собирают фичи — в сумме 1600. Они делятся на dense и sparse — во вторую категорию попадают, например, UserID и PageID. В interaction-модулях применяют DCN-модель и MLP-миксер.
На mix подают результаты в виде двух эмбеддингов размерностью в 96. Они джойнятся с фичами баннера. Обучают mix с помощью multi-task cross-entropy loss. Сюда осознанно не передают user-фичи, «мотивируя» user-башню узнавать о пользователе как можно больше.
SOAP
SOAP получает запрос, по которому из Feature Store достаются и усредняются 2 предыдущих user-эмбеддинга. Их отправляют в downstream-модель — она показывает рекламу. В то же время асинхронно вычисляют и записывают текущие эмбеддинги. Благодаря этому модель получает данные за 30 мс.
Возможная проблема — Embedding Distribution Shift. Появляются новые ID, с которыми юзеры не взаимодействовали, а существующие — устаревают. Поэтому при выкатке новой версии эмбеддингов их логируют. Мы спрашивали авторов, нет ли у них Feature Store с тайм-машиной для расчёта эмбеддингов. Ответ — нет.
Дообучение
Команда попробовала 4 разных подхода к дообучению модели:
— Frozen User Model — дообучение раз в месяц;
— Offline Batch — обновление раз в день;
— Online Real-Time Serving — обновление текущих эмбеддингов;
— Async Online Serving — тот самый SOAP.
В статье есть результаты экспериментов со всеми подходами. Обсудим в комментариях?
Разбор подготовил ❣ Константин Ширшов
@RecSysChannel
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
❤5👍2