Интересное что-то

Offline vs online vs business metrics
Метрики качества можно считать в оффлайне на исторических данных или онлайне. Онлайн - это когда применяется оцениваемый алгоритм. В оффлайне на исторических данных применялось (или не применялось) что-то другое. NDCG@k, Recall@k, Precision@k, MAP@K и т.д. можно считать и в оффлайне и в онлайне. Beyond-accuracy метрики (diversity/coverage, и др.) в retrieval сетапе нет смысла делить на онлайн/оффлайн, но в ranking варианте из-за ограниченного множества айтемов, они будут другими.
Бизнес метрики - это все, что важно продукту (ctr/продажи/число лайков/retention, ...). Бизнес метрики алгоритма всегда считаются в онлайне. Но онлайн метрики - не бизнес метрики, а более широкое понятие.

Парадокс онлайн метрик ранжирования.
Пусть будут две модели "А" и "Б". Двум разным юзерам они порекомендовали некоторые айтемы, и первый юзер накликал по убыванию ранга [1, 0, 0, 0], а второй пользователь - [1, 0, 0, 1]. Первый юзер кликнул только на первый айтем, второй на первый и четвертый. NDCG у первого юзера 1, у второго <1. Recall@1 у первого - 1, у второго Recall@1=0.5. Получается, у первого юзера метрики ранжирования лучше, но если нам важно число кликов, то, очевидно, второй случай лучше, ведь там два клика. Поэтому, если важны клики, и метрики ранжирования считаются в онлайне, то этот парадокс надо учитывать.

Выиграть в оффлайн метрике не значит выиграть АБ-тест
Основной подвох в том, что если модель А лучше модели Б на какой-то оффлайн метрике, то на онлайн тесте модель А может заминусить бизнес метрики. На это есть множество причин. Можно пробовать искать такую оффлайн метрику, рост которой будет означать увеличение нужной бизнес метрики. Например, доклад от Тихонович Даши. Но если ваши оффлайн метрики не коррелируют с АБ, то тогда под вопросом вообще необходимость оффлайн оценки метрик качества. В retrieval сетапе оценить двух кандидато-генераторов и заметить отличие по точности в два раза, скорее всего, нужно и полезно. Увидеть увеличение в ranking сетапе на 3% и запускать АБ-тест - уже сомнительно, зависит от продукта. Эта тема заслуживает отдельного поста.

Источник сбора ground truth и "просмотров" могут быть важнее, чем выбор метрики
Супер важно понимать, какие именно интеракции вы заложили на ground truth. Есть открытый датасет Movielens, там есть рейтинги от 1 до 5. Если взять все рейтинги в качестве ground truth, то вы будете оценивать, насколько модель хорошо предсказывает фильмы, которым человек поставил рейтинг как 5, так и 1. И "лучшей" может оказаться модель, которая нарекомендует фильмы, которые человек оценит на 1. Поэтому лучше брать только те интеракции, где человек ставил 4-5, и оценивать модели только с точки зрения точности таких рекомендаций. Другой пример: пусть есть данные просмотров фильмов в формате (user, item, timstamp, duration), и мы строим next-item prediction модель. Если мы на тесте оставим такие интеракции, что пользователь посмотрел фильм 1 минуту, то "хорошая" модель должна будет уметь такой фильм рекомендовать. Но точно ли это нам надо?

Итого:
Важно знать формулы метрик, упомянутых выше. Но еще важнее понимать, зачем и на основе каких данных нужно их считать. Метрики - это лишь инструмент, который эффективен только в случае хорошего понимания его области принимости. Также, возможно, позже напишу подробнее про проблему корреляции оффлайн-онлайн метрик

60 views10:04