ML for Value / Ваня Максимов
5.59K subscribers
191 photos
1 video
1 file
119 links
Путь от ML-модели до Value для компании | RecSys, Search, LLM, Pricing и CLTV

Ваня Максимов, @Ivan_maksimov
Head of AI | Recsys, search, llm @Y.Market, ex-WB, ex-Delivery Club

Консультирую компании, Веду курсы
Публикую релевантную рекламу
Download Telegram
GPT-4 не особо впечатлил меня

Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось

В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил

Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе

Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач

В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2

P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
🔥25👍10🗿4🥴21
Пробую сделать персонализированную аватарку для канала

Решил поэкспериментировать со смешиванием своей фотки с чем-то еще в одном нехило известном GenAI приложении. Вчера фоткал мост в виде дракона, который изрыгает реальный огонь 🔥
Конечно захотел смешать свою фотку с этим чудом

Я ожидал все, что угодно: добавление кучи огня к моей фотке, перемещение меня в футуристический город, но получилось… ⬇️
😂
😁83🤣16🔥8🏆5😢3
Позиционирование канала ML4Value

Последнее время думаю, о чем же мой канал? Ведь ML4Value очень широкое понятие
Решил, что буду писать в основном про 4 вещи:

1. АВ тесты
Пожалуй, моя любимая душная тема) Без нее никакой связи ML и бизнеса получить не выйдет
И наибольшую известность мне принесло видео на YouTube "13 способов ускорить АВ тест: не CUPED-ом единым"

2. Recommender Systems
Вторая моя страсть ❤️‍🔥
Также планирую связать свою дальнейшую карьеру именно с recsys - так что будет много занятного материала

3. Value для бизнеса
Конечно же изначальную суть канал не потеряет) Подумываю даже о том, чтобы делать мини-обзоры на статьи из индустрии - предполагать, как это реально могло повлиять на бизнес, и выглядит ли АВ в статье корректным (спойлер - почти всегда нет)

4. Social / Entertainment
Надеюсь, немножко информации и про мою жизнь будет интересно - путешествия, номадство, может немножко про тимлидство:)


В связи с этим намечается опрос - стоит ли обновить название канала?
Варианты имеются такие:
- ML4Value - оставить как есть
- ML4SAVR (мл-фо-ЗАВР!, как диноЗАВР 🦖 ) = ML for Sequences, Ab-testing, Value and Recommendations
- ML4EVER = ML for Entertainment, Value, Experiments and Recommendations

Мне важно ваше мнение, поэтому запускаю опросник:)
👍25🤡7
Меняем ли название канала на..
Anonymous Poll
83%
ML4Value - Оставляем, как есть
10%
ML4SAVR - как диноЗАВР!
13%
ML4EVER
🔥1😁1
Выводы про А/В-тестирование от Optimizely

Довольно известная плафторма АВ Optimizely выпустила репорт с анализом 127к экспов за последние 5 лет. И вот что они обнаружили

1. 88% экспериментов проваливаются
Да-да, лишь 1 из 10 ваших самых гениальных и продуманных идей в итоге растит метрики)
Эта цифра довольно хорошо согласуется и с репортами от крупнейших компаний (гугл, ютуб, амазон, airbnb)

2. Половина компаний проводит менее 34 экспериментов в год
Это очень МАЛО ~3 эксперимента в месяц. На моей практике в Delivery Club мы видели хороший суммарный эффект от АВ плафтормы на 10+ экспериментах в месяц. Ну и в конце концов разогнались до ~40-50 экспериментов в месяц (по данным optimizely это как у топ-3% компаний)

3. ~30% экспериментов используют метрику "Выручка". Но красится она в <1% случаев
В общем, думайте тщательно над выбором метрик - не берите просто самую верхнеуровневую! Как правило, почти всегда можно выбрать более узкую и специфичную для вашей фичи метрику (конверсию из действия Х в У, например). Для этого вам помогут деревья метрик и декомпозиция метрик

4. 10% экспов используют 4+ тестовые группы.. и несут х2 импакта - Тут есть вопросики 🤡
Среди 4+ вариантов без хороших поправок на множественное тестирование легко найти победителя, даже если его нет. Тогда конечно такие экспы будут *случайно* нести больше импакта. В общем, я бы покопался под капотом Optimizely - проверил, как они делают (и делают ли) поправку на множественное тестирование

Мое мнение - в 95% кейсов можно использовать 2 группы, в оставшихся 5% - 3 группы

5. Топ 5% АВ-тестов (всего 2 экспа из 34) приносят 50% импакта
Кажется, эпоха low-hanging fruits прошла. Нужно не бояться делать большие изменения и смотреть, что получится

Плюс, делать больше качественных экспериментов конечно!) Optimizely посчитали, что оптимально 1 разраб = не более 1 экспа в месяц


А какие выводы про АВ есть из вашего опыта?)
👍24🔥123
Зимовка в Азии: Вьетнам, Дананг 🇻🇳

Как и писал выше, в канале добавится немного постов про меня, номадство и другие social штуки)

Второй год провожу 1.5-2 месяца зимы в тепле и вообще об этом не жалею:) Был в прошлом году на Шри-Ланке, а в этом во Вьетнаме в Дананге - strongly recommended!


Дананг - Мекка digital nomad-ов во Вьетнаме

- Клевое и +- доступное жилье. Хорошая квартира на 2их будет стоить 600-1000$ в мес. Конечно можно и дешевле, но… не рекомендую:) В этом году это сильно дешевле, чем в Тае или Бали
- Куча хипстерских кафе (Puna и Bikini bottom ❤️‍🔥)
- Дананг - большой город с идеальным пляжем и инфраструктурой
- Тут можно заниматься теннисом (8/10) и серфингом (6/10) 🎾
- Много достопримечательностей в часе езды, мой топ-3: Древняя столица Хюэ, город ремесленников и фонариков Хойан, Мраморные горы 🏔️

Но есть пара моментов:
- Селиться нужно строго в розовой области на карте - 90% nomad-инфраструктуры именно там
- Без мопеда тяжело. Тут работает Grab такси, но тем не менее
- Это все же Азия. Поэтому можно встретить типикал караоке на всю улицу до 22, местные закусочные, рынки на каждом углу : кому-то заходит, а кому-то не очень 😅

В общем Дананг для зимовки - highly recommended
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35👍97
3 всадника рекомендательного апокалипсиса

Сделать персональные рекомендации легко, но почти все системы настигают 3 проблемы

1. Оффлайн метрики, а не онлайн
Можно бесконечно долго оптимизировать ML-метрики типа recall@k, а в результате получить, например рекомендации очень релевантных пакетов или выдачу из одних утюгов

Далеко не всегда оффлайн метрики хорошо коррелируют с деньгами (онлайн): нужно очень хорошо постараться, чтобы найти связь


2. Каннибализация
Доля заказов из рекомендаций 60% - какие мы молодцы!

Нет)) Мы могли просто каннибализировать тот же поиск.
Могло стать даже хуже: каннибализировали поиск, где конверсия выше

На практике эффект ~1 к 10. То есть доля заказов из рек 60% - реальный прирост заказов vs без рек = 6%

Возможно для кликов/заказов из рек надо совершать меньше действий (скролл vs подумать над запросом, написать его, выставить фильтры). Но если юзер знает, что ищет (айфон 14 pro max), то он и без рек его найдет - поэтому в реках важно diversity, surprise

Вообще хорошо бы подумать, как сделать реки НЕ похожими на результаты поиска. YouTube например, убирает из данных для модели последний поисковой запрос даже!

3. Конверсия, а не деньги
Все мы любим оптимизировать конверсию: это понятно и не так сложно. Но реальный мир суров: можно вырастить конверсию и уронить средний чек - в итоге упадет выручка. А можно, например, рекомендовать супер релевантные товары, которые поедут из Южной Америки - и потерять деньги на логистике. В общем, деньги имеют значение 💰

@ml4value
👍47🔥94🤡2
ML4RecSys: что происходит? февраль 2024

Последнее время читаю про недавние прорывы в рекомендательных системах... и там все очень сомнительно

Даже не верится что в 2024 году в статьях с топовых конференций классические «стажерские» ошибки:
- неправильный train-test split
- сравнение с явно недо-тюнеными бейзлайнами
- выбор для сравнения только тех датасетов, где модель побеждает…

Поэтому выудить что-то явно работающее очень сложно 😕
Тем не менее, на мой взгляд, в адекватных статьях взлетели:
- Трансформеры для отбора кандидатов
- Разные стратегии поиска Hard negatives (покупка - позитивный таргет, но найти хороший негативный - занятная задача)
- Таргет более близкий к деньгам (не клики, а хотя бы клики дольше 10 сек)

Дальше уже разные топ компании репортят совсем разные вещи:
- У одних лучше encoder (BERT4Rec), у других - decoder модели (SASRec)
- Как будто огромное значение играет не архитектура, а выбор данных / как берут негативы / лосс
- В академии SOTA показывают модели с дополнительным contrastive loss, но в индустрии этого пока не видно
- Почти у всех проблемы метча оффлайн/онлайн метрик или рост конверсии + падения чека, но никто не говорит, как с этим справляется
- Многие внедряют разнообразие / novelty в рекомендации через постпроцесинг без всякого ML
- Как будто градиентый бустинг для ранжирования все еще на уровне с SOTA

В общем, пока инженерный подход в рекомендациях решает 🔥

Если вы знаете прикольные открытия / рабочие инженерные подходы в RecSys, делитесь в комментариях ⬇️
👍28🔥17🤓21🤡1