Big Ledovsky | AI изнутри
1.84K subscribers
228 photos
18 videos
4 files
190 links
Александр Ледовский
Head of AI | stealth ecom стартап, ex: Avito, Сбер, ШАД
ML в проде и что реально происходит в AI
DS карьера и менеджмент

@aledovsky
Download Telegram
Продолжение предыдущего поста на самом было написано почти сразу, но на меня напала простуда, и пока желания постить что-то серьезное нет. Полезные карьерные выводы будут в следующий раз 🙂

Не болел с температурой я кстати больше года, с прошлого нового года! (Зато как! Перезаражал весь дом сменщиков 🥲)

5-10 лет назад такое здоровье было мне не свойственно. Да и сейчас я виню 6 тренировок за последние 8 дней.

Я стараюсь не уходить на больничный с легкой простудой, т.к. искренне не понимаю чем еще заниматься. Лежать в постели я не буду. Смотреть целый день телек или играть - сойду с ума. А работа она даже проста, т.к. привычна. Особенно техническая: запускаешь пайплайны, делаешь PR-ы, чешешь репу над метриками.

Но все-таки вечером на меня находит вайб отдыха. Вчера мы посмотрели аж 3 фильма подряд, а еще я почувствовал себя немного взрослым 🥲. Потому что это все были старые фильмы из моего детства. Оцените

- Астерикс и Обеликс. Миссия Клеопатра
- Знакомство с Родителями
- Знакомство с Факерами

Ужасно, что я так говорю, но раньше снимали лучше 😂

#lifestyle@big_ledovsky
20🙏10💯4😁2🤝1
Как находить аплифты от Data Science. Часть 2

Итак, я снова в писательском строю. Мой прошлый пост был про то, что вероятность получения реального эффекта от ML зависит от правильного выбора места, где вы работаете. Продолжу давать советы как выбирать

Выбор отдела и проекта

Условно, можно поделить DS проекты на следующие категории, по метрикам на которые они влияют

- Рост выручки
- Снижение затрат
- Рост вовлечения (MAU, DAU итд)
- Рост качества продукта
- Не имеют прямого влияния

Проще всего получать аплифты, где есть прямое влияние на выручку. Например, монетизация в поиске, маркетинговые коммуникации или банковский скоринг. Тут процент от улучшения модели напрямую будет превращаться в деньги.

Снижение затрат как будто чуть сложнее для раскачки, но и там можно получить хорошие эффекты. Например, автоматизация распознавания документов или автоматизация поддержки. Для DS тут главное, чтобы уже был создан задел из простых алгоритмов, чтобы модели тестировались против работающих эвристик.

Вовлеченность как мне кажется качать непросто. Есть «хорошие» задачи вроде поиска и рекомендаций. Но вот не знаю, возможно ли замерить влияние на DAU качество ответов условной Алисы.

Обеспечение качества продукта хорошее место для выбивания эффекта. Его нельзя будет понятно померить в деньгах, но вы будете видеть результат своей работы. Например, антифрод или матчинг товаров, или построение прогнозов (хотя в последнем бывают исключения, у нас вот прогнозы в ui напрямую растят выручку)

Но вот с чем нужно быть аккуратным - это с проектами, которые явно ни на что не влияют. Это не значит что они всегда ненужные, но просто иногда с ходу понятно, что аплифтов тут не будет. Например, когда говорят - давайте сделаем модель кластеризации клиентов. Или у меня был негативный опыт с моделью оттока сотрудников. Чтобы распознать такой проект, задайте вопрос - на какие продуктовые метрики вы будете влиять? Что будет происходить с выходом вашей модели? Возможно ли провести какой-то адекватный эксперимент? Если нет, то считайте, что это RnD.

Итог

Надеюсь, мои мысли дадут вам пищу при выборе новой работы и проекта внутри вашей компании. Если вы хотите получать эффект, то в первую очередь думайте на какой проект вы делаете ставку. Из дохлой лошади выжать что-то будет очень сложно.

Спасибо за внимание. Как всегда буду рад вашим реакциям 🔥 и историям кринжовых проектов 🙂

#career@big_ledovsky
🔥18👍52
Сорев от ВТБ

Заглянул посмотреть соревнование ВТБ, которое они запустили перед своей конференцией Data Fusion. Там предлагают три задачи:

- Сделать классификатор названий товаров по категорийному дереву
- Прогнозирование неизвестных временных рядов по клиенту-юрику
- Предсказание медианных остатков на счету клиента

Впечатления смешанные

Почему сорев ВТБ - это в целом хорошо

В отличии от международных площадок соревнований, российские соревнования посвящены прикладным задачам. Если посмотреть Kaggle, там один конкурс страннее другого. Все ориентировано на рисерч и узконаправленный Deep Learning: то предсказать последовательность РНК, то научиться решать олимпиадные задачи по математике. Откровенно говоря, большинство ML инженеров занимаются совсем другим. Поэтому ВТБ спасибо за то, что поддерживает поток соревнований с задачами, похожими на настоящие.

Качество задач - не оч

Задача, которую я взял смотреть меня расстроила. Я пошел классифицировать названия товаров и обнаружил, что категорийное дерево в задаче - хуже некуда. Оно просто нереалистично плохое, словно его нагенерили с помощью LLM.

Да, задача ориентирована на плохие данные. Ну пусть разметка будет плохая, пусть классы представлены неравномерно. Но зачем же матчить данные на плохое категорийное дерево?!? Это бессмыслица какая-то. Да и зачем вообще ВТБ матчить названия товаров? Или они маркетплейс покупают?

Развлекался сборкой образа

Я уже думал бросить соревнование из-за отсутствия практического смысла, но мне почему-то захотелось собрать решение с векторным поиском по e5-multilingual эмбеддингам со своим докер образом. Да, там можно в решение дать свой докер образ. Бейзлайн я сделал минут за 30, но со сборкой провозился много часов. Пришлось разобраться как собирать образы с CUDA на mac m1. А еще docker desktop у меня распознается как malware и пришлось ставить опенсорсный аналог - Colima.

Итоге все заработало. Прямолинейный векторный поиск вообще не прям чтобы круто работает, но скор бейзлайна улучшил в 2 раза. Я доволен.

Поделитесь реакциями, что думаете о конфе и сореве ВТБ: круто 🔥, сомнительно 🌚
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍8🌚4🦄1
Приоткрываю карты, как мы собираем поисковую выдачу, когда что-то в ней меняем.
👍6
Forwarded from Доска AI-объявлений (Alexander Ledovsky)
Почему мы не используем ассессоров для выкатки моделей в поиске

Осенью я участвовал в конференции IML в качестве эксперта. Моя роль была в том, чтобы после доклада Коли Смирнова про поиск «Лавки» поучаствовать с ним в дискуссии. И мы как раз затронули эту тему: ребята используют ассессоров, а я объяснял, почему у нас это не работает.

Идея ассессоров следующая:

👉 Допустим, вы переобучили поисковой ранкер и получили хорошие ML-метрики, условный NDCG.

👉 Затем вы посылаете на ассессоров заранее подготовленный пул запросов, отранжированных новой и старой моделью, и получаете оценку качества от людей.

Проблемы начинаются тогда, когда вы ранжируете не по релевантности. Мы учитываем сразу много факторов в выдаче: релевантность, кликабельность объявления, монетизацию, репутационные скоры. А ещё нужно не забыть, что частные продавцы на Авито должны получать свой трафик, чтобы их не выдавили профессионалы.

Поэтому никакой ассессор не сможет оценить, насколько хорошо мы собрали выдачу.

Мы используем специальную оффлайн-приёмку, где считаем метрики по заранее сформированным пулам запросов, но по скорам моделей и количеству объявлений разных типов. Например, если сильно просадили частников — плохо.

Думаю, что в какой-то момент от нас выйдет подробный доклад по этому поводу. Там много интересного: и как формировать пулы, и как подбирать хорошие оффлайн-метрики, и как сделать инструмент быстрым в использовании.

P.S. На самом деле ассессоров мы используем. Но только для сбора специального датасета для обучения модели релевантности. Но это не то же самое, что оценка поисковой выдачи в целом.
👍14
Ответ на пост: AI продакты - кто это?

Никита написал актуальный пост. Он подметил, что сейчас активно стали искать AI продактов. И задается вопросом кто они такие? В Авито есть ветка AI продактов (мы ее называем DS продакты). Я активно работаю с DS продактами и мне нравится идея выделять такую специализацию. Расскажу по порядку.

AI продакт - это в первую очередь продакт, а не DS инженер, и не руководитель DS инженеров. Он отвечает за запуски продуктов, использующих ML, и улучшение их метрик. Я бы сказал, что это обычный продакт, который имеет общий инженерный бекграунд и какое-то время поработал на проектах с ML. Например, имеет представление, как в каких компаниях устроены те или иные решения: поиск, динамический прайсинг, автоматизация поддержки итд

Почему недостаточно DS тимлида?

Потому же, почему недостаточно иметь тимлида разработки в обычных ИТ продуктах. Есть некоторое разделение труда, чтобы каждый делал свою работу лучше. А еще менеджерской работы достаточно много, чтобы поделить ее между двумя ролями: DS тимлидом и DS продактом.

Примеры задач, которые делает AI продакт

- Составляет продуктовую стратегию
- Согласует и отвечает за выполнение продуктовых целей
- Согласовывает раскатки
- Обрабатывает входящие запросы из других команд

Первая киллер-фича AI продакта

Он позволяет DS тимлиду (то есть мне) сконцентрироваться на технических улучшениях моделей и алгоритмов. Я работал и без DS продакта - моя DS продуктивность была сильно ниже.

Вторая киллер-фича AI продакта

Средний технарь не любит отвечать за бизнес часть. Он любит делать то, что ему интересно с инженерной точки зрения. А если тебе что-то не нравится, он пойдет работать в другое место - спрос то есть.

Поэтому нужно либо нанимать крутых бизнес-ориентированных DS инженеров и платить им огромные деньги. Либо дать ответственность продакту и пусть он долбает технаря.

Заключение

Ну что, я вас убедил, что AI продакт - полезная роль?

➡️Читайте также
Выбор, который обнаруживаешь в середине карьеры
Вечные проблемы DS команд

#management@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6🙉3🥰1
Какие DS конференции нас ждут весной

Если вы давно читаете этот канал, то знаете, что я люблю ходить на оффлайн конференции. Когда то я обещал делать небольшие обзоры того, что будет. Давайте посмотрим на интересные мероприятия весны.

16-17 апреля. Data Fusion. Конфа ВТБ. Честно говоря до этого на ней не был, но в этом году планирую сходить.

16-17 мая. IML conf. Питер. Это относительно новая конфа, коммерческая, но потому качественная. Она делается компанией JUG, которая делает JPoint и другие крупные ИТ конфы. Поэтому там есть программный комитет, хороший продакшн и прочее. Подал туда доклад, жду возьмут или нет.

23 мая - 1 июня. DataFest 2025. Как и в прошлом году датафест будет состоять из нескольких дней, которые будут проводиться разными компаниями. И один день опять будет проходить у нас. Конечно всех ждём!

➡️ Читать также
Впечатления с осенней IML 2024
Впечатления с Датафеста 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Про мотивацию

Вчера сидели в баре, и я вспомнил, что меня в жизни сильно замотивировало и помогло стать тем, кем я стал.

В 10-м классе я занимался математикой с преподавателем из МАИ. Честно говоря, мой уровень математики был тогда не очень высокий. Но и преподаватель не был блестящим ученым)) От статей в уважаемых журналах там было далеко.

В общем этот человек (я уже не помню как его зовут и даже как он выглядел) сказал мне, вроде как похвалил, что я стану твердым хорошистом у него на факультете прикладной математики.

Не знаю почему, но это безумно меня задело, что мой потолок - быть хорошистом. Я понимаю, что топливо от этого случая живо во мне до сих пор.

Но еще более удивительную историю я узнал у коллег. Оказалось, что сразу два человека из сидевших за столом выбрали техническое образование после просмотра Железного человека. Я его признаюсь не смотрел, после такого нужно исправить.

Такие дела. Как всегда буду рад вашим реакциям!

#lifestyle@big_ledovsky
27😁18👍4
Немного лайфстайл контента со вчерашнего турнира по настольному теннису!

Интересно, что из 5 человек команды 4 занимаются аналитикой и DS

- Мы с Ромой DS-ы, делаем продвижение в поиске и рекомендациях
- Коля - аналитик, делает скидки
- Даня отвечает за АВ платформу
- А Ваня где-то в продажах, даже не знаю на самом деле что конкретно делает.. 😅
🔥298🏆7🫡1
Мысли после месяца кодинга c AI

В интернетах ходят самые разные мнения по поводу написания кода с помощью LLM. Появился термин - вайб-кодинг 🏄‍♂. Это когда вместо того чтобы писать код, пишете инструкцию AI ассистенту, что вы хотите, чтобы он написал за вас.

Кто не пробовал, LLM реально хорошо пишут код. Даже очень хорошо. Откровенных галлюцинаций я не видел. Но не все так просто. Делюсь своими впечатлениями.

В сообществе появилось сразу несколько лагерей

🐙 Очевидно активизировались начинающие и авторы курсов для них. Там буря эмоций и космические ожидания. Теперь каждая домохозяйка сможет статьи программистом.

🐙 Одна часть опытных людей горит 😆, что наберут толпу вайб-кодеров из предыдущего пункта. Они так накодят, что ИТ системы по всему миру будет не откачать после такого вмешательства

🐙 Другая часть опытных людей предсказывает серьезные изменения в профессии и вымирание джунов как класса (т.е. людей из того же первого пункта 🤪)

Я не отношусь ни к одному лагерю. Я думаю, что AI кодинг безусловно изменит привычный формат работы. Но также я понял, что писать хорошие инструкции непросто. Вообще далеко не все умеют понятно объяснять. А нужно и объяснить, и потом проверить.

Поэтому я жду, что будет смесь. Будут те, кто хорошо пишут код "по-старому", и те кто "по-новому". И "по-новому" тоже нужно будет немало учиться, чтобы хорошо писать промпты.

Что я пробовал

💎 Сперва я начал писать в веб-интерфейс ChatGPT и мне так понравилось, что я купил подписку за 20$.

💎 Затем я попробовал Cursor - редактор кода, сделанный на основе VSCode с AI помощником. Он произвел на меня не меньшее впечатление. Но после 2-недельного пробного периода подписку я пока не купил. Хочу попробовать другие инструменты

💎 И последнее - это терминал Warp. В нем можно писать команды в командную строку, а можно попросить что-нибудь написать за тебя. Очень удобно.

С следующих постах я подробнее расскажу о том, как эти инструменты работают, и как я работаю с ними.

Что хочу попробовать еще

Инструменты, работающие через API, совместимые с разными нейросетями.

🌳 В первую очередь хочу попробовать Aider. Это open-source проект и вы можете посмотреть его промпты на гитхабе. А еще он мне откликается по духу, т.к. работает из командной строки

🌳 Continue.dev - расширение для VSCode

🌳 Zed - Еще один трендовый редактор со встроенным AI. Может быть у VSCode наконец появился достойный конкурент (не то что бы против JetBrains и NeoVim, но у них другая ниша)

Итого

Пока использую ChatGPT через Web. Не прям чтобы очень удобно заниматься постоянным копипастом. Но все-таки я использую LLM точечно и плюс контроллирую что я посылаю, поэтому пока терпимо.

В любом случае в будущем хочется уйти от Web-UI и найти и настроить себе удобную среду.

PS. Узнали оригинал картинки?)
PPS. Буду рад вашим реакциям!

#productivity@big_ledovsky

🔜Читайте также
Мой сетап MacOS
Почему Jupyter ноутбукам придет замена
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥82🥴1
Есть условно 4 типа людей, которые делятся по комбинации признаков: хорошие/плохие работники и умеют/не умеют проходить собесы.

И кстати тех, кто хорошо проходил собесы, но потом плохо перформит, не так много. А вот хороших инженеров, которые плохо проходят собесы достаточно. Поэтому к собесам нужно готовиться.

Чтобы следить за трендами о том, что сейчас спрашивают, и не замыкаться на наших интервью я хожу по собеседованиям читаю канал Димы Ebout Data Science. В отличии от других каналов, мне нравится его стиль - не душно, но и не треш-контент. Вот несколько интересных постов:

- Разбор собеса на Middle DS в NLP
- Self-attention в одном посте
- ML System Design RAG системы в одном посте

В общем, рекомендую обратить внимание. А еще меня зацепили видео с разборами на ютубе. Их пока немного, но они прям хорошего качества, с монтажом и хорошим звуком. Хочется чтобы такого контента в русскоязычном DS было больше.
🤡14👍5😐32🔥2
Правда про АБ тесты

Знаю, что меня читают аналитики.

Обратите внимание на митап Trisigma 16 апреля. Trisigma - это наша АБ платформа, которую мы выпустили наружу в качестве продукта.

А я поделюсь своим взглядом на АБ-тесты. Люблю, когда в блоге Валеры выходят разборы статей про мат методы в АБ. Но на самом деле АБ-ница - это не про кьюпеды, а про процессы.

- Чтобы АБ тест запускался быстро и по стандартам
- Чтобы система ежедневно обсчитывала много метрик и разрезов
- Чтобы метрики было легко поддерживать и добавлять
- Чтобы можно было накликать метрик и скинуть ссылку, а потом разобрать тест на регулярной встрече
- Чтобы люди могли исследовать почему их метрики пошли в ту или иную сторону, поискав прокрасы этой метрики во всех тестах за год
- И главное люди ей верили и по тестам засчитывали аплифты метрик

У нас прям очень много тестов. Некоторые слои невероятно загружены и мы играем в тетрис, чтобы поделить трафик на квартал. Например, слой поиска в Товарах

На практике тесты отличаются от теоретических знаний, которые вы могли увидеть на курсах (не является рекомендацией или официальной позицией 😅 просто правда жизни)

- Да, мы подглядываем, хотя вообще нельзя
- Да, смотрим на тест под разными альфами, когда их разбираем, хотя говорят что нужно фиксировать их заранее
- Да, не делаем поправку на множественное тестирование (но смотрим на матожидание ложных прокрасов)
- Да, обычно вырубаем красный тест досрочно
- Да, регулярно есть ложные прокрасы
- Да, иногда добавляем метрики и задним числом пересчитываем

В общем, тема тестов очень богатая и интересная. И стоит того, чтобы в ней разобраться 🙂

🙈 если тоже подглядывайте
😈 если осуждаете
🤔 если хотите узнать что такое прокрасы, и что такое красный и зеленый тест
🙈23🤔12😈10🔥4
К предыдущему посту - разговорник по АВ-тестам

Было довольно много реакций, чтобы узнать что такое прокрасы и красные и зеленые тесты. Думаю, что могу объяснить это в двух словах.

Итак. АВ-тест делит пользователей на две группы. Одна группа работает, как работала. А на второй вы раскатываете новый функционал. Суть в том, что метрики в двух группах всегда будут отличаться. Но вопрос - это случайность или следствие отличий между группами?

Статистический критерий выдает пороговое значение, чтобы изменение не считалось случайным. Критерий зависит от объема трафика, дисперсии метрики (= величины шума) и вероятности ошибок, на которые вы соглашаетесь.

Если изменение метрики больше порога - говорят, что она прокрасилась

- Если метрика изменилась положительно, говорят, что прокрас зеленый 🟢 . Если отрицательно, то красный 🔴

- Если в тесте положительно прокрасились ключевые метрики - говорят, что тест зеленый 🟢

- Если отрицательно, то красный 🔴

- Если ничего не прокрасилось, говорят, что серый 🔲

- Если есть как положительные, так и отрицательные прокрасы, говорят, что тест зелено-красный 🟢🔴

- Если прокрасы положительные или отрицательные, но на грани значимости, то говорят, что тест серо-зеленый 🔲🟢 или серо-красный 🔲🔴
🔥16👍53
На Data Fusion

Итак, в этом году я наконец-то попал на Data Fusion. Во-первых, я получил приглашение (как блогер 😅) и офигенную толстовку. Во-вторых, я участвовал в соревнованиях Data Fusion этого года и поэтому хотел поучаствовать и в самой конфе. На этот раз не могу похвастаться призовыми, но задача определения категории была супер полезна c точки зрения опыта. Научился дообучать берт, замораживать и размораживать веса и вот это все.

Я немного шокирован масштабом программы, т.к. она состоит их двух полных дней по 7 параллельных треков с утра до вечера. Вот буквально с 9-30 до 20-00. Происходит все это дело в кластере Ломоносов - однозначно живописном месте. Забавный факт, что я долгое время был убежден, что кластер Ломоносов - это суперкомпьютер и не понимал как люди могли его посещать 😂

Встретил Никиту и моих старых коллег по DS консалтингу IBM Дениса и Артура

Ждите следующего поста с впечатлениями!
🔥33❤‍🔥104😁2😍2👍1