Big Ledovsky | AI изнутри
1.84K subscribers
228 photos
18 videos
4 files
189 links
Александр Ледовский
Head of AI | stealth ecom стартап, ex: Avito, Сбер, ШАД
ML в проде и что реально происходит в AI
DS карьера и менеджмент

@aledovsky
Download Telegram
Написал в наш канальчик Avito Data Tech!
P.S. Мой первый пост, в котором правильно расставлены знаки препинания 😅
🔥9😁51
Forwarded from Avito Data Tech
💻 Должен ли DS писать продовый код?

Всем привет! Меня зовут Саша Ледовский. Я DS Team Lead в Adtech Авито, и я очень рад написать для канала Avito Data Tech.

Хочу обсудить с вопрос, касающийся роли DS в компании — а должен ли DS писать продовый код? Под продовым кодом я имею в виду не даги на airflow раз в сутки, а прям доработки в real-time сервисы, с нагрузкой и критичностью.

🔍 В пользу ответов «Да» или «Нет» есть свои аргументы.

В пользу «Нет» есть два аргумента. Во-первых, людей, разбирающихся и в ML, и в проде, сложно искать. Во-вторых, есть DS-ы, которым не хочется разбираться в сложном коде бэкенда, заниматься отладкой, писать тесты и делать прочие, присущие работе с продовым кодом, вещи.

В пользу «Да» тоже есть что сказать. Реальные сервисы — это не модель с обёрткой в API. Там есть туча логики, алгоритмов, эвристик, постобработок, нужно понимать, как отправляются события, доезжают фичи и прочее. Оффлайн приемку нужно гонять, в конце концов. Передавать это от DS-а к разработчику и обратно в полной мере невозможно.

📌 Лично я выступаю за то, что обычный DS должен писать в прод, и рынок, по мере увеличения зрелости, к этому придёт. Например, у нас в Авито DS — это в первую очередь инженер. На наших собеседованиях одним из важных факторов является опыт работы с продом. Всем, кто пока не работал с продом и с нагрузкой — очень рекомендую попробовать. Это правда интересно!

С другой стороны, мне кажется правильным, что в ряде компаний из DS часто выделяют исследователей — Applied Researchers или что-то вроде того. Исследователи находятся в отдельных командах, не отвечают за прод, а занимаются именно исследованиями: разрабатывают новые алгоритмы, читают и пишут статьи, развивая технологии в долгую.

Итог: если вы DS, я рекомендую вам либо уделить внимание инженерным навыкам или целенаправленно перемещаться в исследователи. Быть посередине, на мой взгляд, менее перспективно. Что думаете?

#DS
Please open Telegram to view this post
VIEW IN TELEGRAM
👍214
Традиционно в октябре смотрим UFC в Абу Даби 🔥

P.S. Обычно турниры проходят по Американскому времени и Абу Даби единственный номерной турнир, который проходит в наше время.
15🔥8👍2🤝2
Скоро осенняя I'ML

Обещал, что буду писать про предстоящие Data Science конференции.

8 ноября будет проходить IML. Первый раз IML проходила в мае. Я должен был тогда выступить, но в итоге у меня произошла накладка с поездкой на WebConf. В этот раз я тоже буду участвовать, но в качестве эксперта (вести дискуссию с докладчиком после выступления).

Фокус конфы - MLOps. Большая часть докладов будет про применение моделей в продакшене. Два доклада, которые меня заинтересовали больше всего: оценка качества моделей поиска Я.Лавки (очень близкая мне тема, я там буду как раз в качестве эксперта) и Airflow под высокой нагрузкой в Okko.

🔜Читайте также
Впечатления с E-CODE 2024
Впечатления с PracticalML 24

#tech
Please open Telegram to view this post
VIEW IN TELEGRAM
32👍1
Сезон набора формы и сезон эксплуатации формы для DS

На днях узнал от Андрея интересные инсайты про бег 🏃‍♂️ и подумал, насколько это применимо к Data Science. Андрей увлекается триатлонными видами спорта. Прям по серьезке. У него в порядке нормы, когда больше одной тренировки в день. Оказалось, что в беге есть два сезона: сезон набора формы и сезон ее эксплуатации.

Оказалось, неэффективно одновременно участвовать в соревнованиях и наращивать свои показатели. В сезон, когда активно идут забеги, нужно восстанавливаться и подводиться к новым дистанциям. В этот период можно только поддерживать свою форму на том же уровне. А в сезон, когда забегов нет, можно улучшать форму и повышать темп и объемы в которых тебе комфортно бежать.

💎 Я задумался, а применимо ли это к Data Science? В данном случае набор формы - это чтение статей, прохождение курсов, изучение докладов на конференциях и open-source кода. Эксплуатация формы - это решение прикладных задач.

Конечно, на работе 👨‍💻 вам как правило никто не даст потратить квартал на рисерч. И это правильно. В большинстве ситуаций лучше всего выдавать пусть небольшой результат, но регулярно. Однако, задачи бывают разные по сложности. Плюс когда мы говорим про DS, мы говорим и про активность вне работы: хобби-проекты, соревнования, рисерч итд.

Условно, в один квартал можно брать задачу, которая представляет для вас челлендж. А в другой квартал брать стандартные для себя задачи и посвящать время совершенствованию своих навыков. Мне кажется, что моя проблема, что я не могу разделить две эти активности, поэтому мой рост "формы" происходит медленнее, чем я бы хотел. Наверное, последний системный период набора формы у меня был два года назад, когда я проходил HardML. Все остальное было смазано фокусами на какие-то прикладные задачи.

Как всегда, буду рад услышать ваше мнение!

🔜Читайте также
Впечателения от HardML
Как разобраться в трансформерах - про открытый ШАДовский курс NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12
Впечатления с IML

Сегодня участвовал в IML. Конфа была онлайн, но запись проходила в студии. Студия принадлежит организаторам конференции, компании JUG (они делают много конференций, например, JPoint). И студия конечно меня впечатлила обилием оборудования. Круто в общем) А, ну и в добавок, появился повод съездить в СПб.

Я не делал доклад, а участвовал в дискуссии. Я прикинул, что оптимально один раз в год выступать самому, а один раз участвовать во второстепенной роли. В прошлом году я модерировал секцию на матемаркетинге. А в этом вот на IML в качестве эксперта.

На фото мы с Колей Смирновым, который рассказывал про поиск в Лавке. А потом мы с ним и со слушателями почти час разговаривали о всяком. У Коли был замечательный доклад, и дискуссия после была пусть с небольшим количеством участников, но зато душевная. Даже в бар на афтепати опаздали.

#worklife
14👍5💯3
Этот наш дата сайнтист оказывается очень романтичная натура, согласно последнему исследованию DS специалистов

- Читает телеграм каналы и статьи
- Ходит на митапы
- Мечтает о том, чтобы подтянуть фундаментальную математику
- Общается с бизнес-заказчиком не чаще раза в неделю
- Делает пет проекты в рабочее время

🙈
🤣19👍54💅2😁1
3-е место на сореве AI Journey

Сказать, что я удивлен - ничего не сказать)

Соревнование состояло в построении бота-ассистента в интернет-магазине, который умеет и говорить, и искать товары по базе. С прошлого раза мне удалось сделать новое решение, которое вывело меня на 3-е место лидерборда.

Но в моем решении была тонкость - я не мог воспроизвести скор повторной отправкой того же кода 😅 Поэтому я считал, что это случайность. Я какое-то время пытался улучшить решение, но фичи, которые субъективно улучшали работу бота, плохо влияли на скор. Я перестал активно решать соревнование и думал, что все меня уже обошли.

На сорев наложилось то, что в какой-то момент обновилась модель Гигачата и проверочная система стала выдавать очень низкие скоры) Может быть это демотивировало участников и поэтому они перестали решать.

Соревнование завершилось 28 октября, организаторы ушли подводить результаты, и я уже успел про все это забыть. А тут меня друг поздравляет с успехом 😅
🎉41👍17🔥52🆒1
Senior Data Scientist vs Senior крановщик

Вчера читал один пост про то, что ИТ-шники больше не "элита", а новый рабочий класс 👨‍💻. И что сварщики и крановщики теперь получают очень много, и это они - новая "элита". Но при этом у них после смены чиста-голова, и вообще меньше стресса.

Вайб поста мне очень зашел. Но по сути все обстоит не совсем так. Автор очевидно вкладывал в пост долю шутки, но я вот задумался.

Во-первых, ИТ не элита, потому что никогда не был путем, чтобы стать богатым и успешным. Консалтинг, инвестиционный банкинг, свой бизнес, работа недалеко от бюджета 🍿, классическая корпоративная карьера, но не ИТ. Даже стартапы выглядят как сомнительный способ стать богатым. ИТ всегда был про комфорт, свободу 🗽 и социальные лифты.

Во-вторых, инженерная работа - это не работа руками. Наверняка, у читателей канала был разный опыт работы и они подтвердят. Я в начале своей карьеры поработал в операционном консалтинге Ernst and Young и около полутора лет ездил в долгие командировки на металлургические заводы. Завод это: жесткая практически армейская дисциплина, ночные смены, холод или жара в цеху, часто монотонная работа. Еще на вас периодически орут матом.

А в ИТ вы просыпаетесь в 10-25 за 5 минут до дейлика (я так очень редко делаю, но бывает 😅) и завариваете себе латте с адаптогенами (а вот это делаю регулярно, перешел на фирму re-feel с обычного кофе). Одна девушка в комментариях написала замечательную аналогию, что ИТ-шник живет как раньше могли себе позволить жить художники и писатели.

Я искренне ценю тот образ жизни, который мне доступен. И сейчас собираюсь в путешествие на месяц, вдохновляясь друзьями-номадами и русской литературой (хотя в русской литературе герои подолгу путешествовали по Кавказу, а не там, куда я еду. но я про вайб). Об этом расскажу в следующий раз.

#lifestyle
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥3👎1🤔1
Месяц номадства

Идея, что мне нужно куда-нибудь поехать номадом родилась на Смене в прошлый Новый год. Половина из участников нашего заезда были номадами, не жили долго на одном месте и постоянно перемещались. В тот момент сама Смена дала мне палитру новых мыслей, а номадская поездка вообще представлялась чем-то выходящим за границы.

Что номадство лично для меня

- Жить в естественной среде, а не отеле-загоне. Постараться, чтобы номадство не было туризмом
- Приспосабливаться к новым условиям
- Успевать и работать, и изучать новое место, и заводить знакомых

Я даже поставил цель на год, что куда-нибудь съезжу в таком стиле. Однако время шло, год начал близиться к концу, и казалось, что уже не получится. Но неожиданно все как-то сложилось и я собрался на месяц в Тайланд.

В общем в выходные я добрался до Бангкока, живу тут у друзей и планирую следующие перемещения. В Бангкоке точно задержусь. Многие говорили мне, что им там не понравилось. Но на самом деле Бангкок сильно отличается от района к району, и туристу сложно увидеть жизнь с другой стороны. Чтобы тут жить нужен скилл, но он вознаграждается удивительным опытом.

#lifestyle
🔥23👍113👏2
2 декабря стартует курс по АБ от Паши и Андрея

Хочу порекомендовать курс по АБ-тестам, которые делают мои друзья (и товарищи по походам 🙂) Паша Бухтик и Андрей Кунцевич.

Знания по АБ-тестам так нужны в работе, а получить их непросто. Ребята делают хорошее дело, создав специализированный курс. Сейчас запускается уже 2-й поток.

В курсе 12 онлайн-лекций, 12 занятий в мини-группах, материалы, домашки с индивидуальной ОС и активное комьюнити

🔗 Узнать подробнее и оставить заявку
http://nodatanogrowth.com/product-analyst-ab-testing
7👍3
2 года DS лидом Авито. Часть 1. Продукт

Вчера была моя вторая годовщина в Авито. Хочу поделиться как прошел год. А вы можете примерить на себя мой опыт, или просто почитать из любопытства.

Рассказ будет состоять из двух частей: продуктовой (бизнесовой) и технологической. Начну с продукта.

Мне повезло, что каждый год я участвовал в серьезном продуктовом запуске 🤑. В 2023 это был запуск продвижения за бюджет. В этом году это продвижение за повышенную цену клика в товарах. Моя роль в этих продуктах была разработка алгоритмов.

Быть в центре больших запусков - это не передать словами. Очень эмоциональная штука. Вы довольно долго что-то делаете, каждый выкладывается в своей части, долго приходится гонять технические тесты, а затем.. идет раскатка теста на пользователей. 1%, затем 10%, а затем после подведения итогов теста идет раскатка на всех..

Все это время вы 🙏, следите за графиками, читаете обращения в поддержку, дискутируете о том, что значат конкретные значения метрик. А потом в какой-то момент понимаешь, что все, активная фаза прошла, и можно расслабиться.

💎 В общем, если у вас такого опыта не было, но откликается то, что я написал, то обязательно попробуйте. Нужно будет хорошо искать проект, команду и компанию, но опыт вы получите бесценный. Ну или приходите к нам 🙂

#worklife

🔜 Читайте также
Год в Авито
Пост когда я переходил в Авито
Мои сильные и слабые стороны
Please open Telegram to view this post
VIEW IN TELEGRAM
👍245
2 года в роли DS-лида в Авито. Часть 2: Технологии

Эта часть про то, чего удалось добиться нашей команде за год в области алгоритмов и моделей. Расскажу о том, что дошло до публичных выступлений и что можно поделиться открыто.

Ранжирование: от эвристик к ожидаемой выручке

Одним из главных успехов команды стало обновление подхода к ранжированию. Мы отключили множество устаревших механик и добавили учет ожидаемой выручки от показа как фактор ранжирования. Это помогло найти более оптимальный баланс между пользовательским качеством и монетизацией.

На мой взгляд, мы сделали действительно сильное решение. Многие компании используют эвристики, например, умножение скора платного товара в поиске на коэффициент. В таких системах сложно управлять эластичностью эффекта от продвижения и добиваться предсказуемых результатов. Наше решение оказалось более гибким и предсказуемым. На эту тему был доклад Ромы Логинова и Даши Ситовой на Матемаркетинге, но, к сожалению, он пока не доступен публично.

CTR-модели и автобиддинг: трансформация подхода

Мы активно развивали модели вероятности клика (CTR) и систему автобиддинга. Год назад я написал новый алгоритм автобиддинга, который стал основой для перестройки всей системы. Сейчас от моего кода уже мало что осталось — команда его серьезно улучшила. И не зря: автобиддинг стал частью продвижения с повышенной ставкой на этапе запуска нового продукта.

С CTR-моделями было сложнее: я углубился в проблему оффлайн-метрик. Это оказалось вызовом, потребовало изучения научных статей и привело к докладу на DataFest. Новые метрики дали хорошие результаты в тестах, но полностью предсказывать рост продуктовых метрик за счет CTR-моделей нам пока сложно. Мы сейчас накапливаем базу завершенных A/B-тестов, чтобы использовать её для выбора более качественных оффлайн-метрик.

Эксперименты: инновационный подход к тестированию

Мы много работали над улучшением экспериментов. Удачным решением стали сплит-тесты, где бюджет на продвижение делится на две части для сравнения друг с другом. Об этом подробно рассказывал Антон Семенистый.

Итоги года и планы на будущее

Год получился насыщенным. Я горжусь результатами и тем, как работает наша команда. В следующем году планирую реализовать несколько новых технических проектов, которые станут шагом вперед как с точки зрения технологий, так и метрик. Посмотрим, что получится!

P.S. Написав этот пост, я решил попросить ChatGPT его улучшить. К моему удивлению, он внес совсем немного правок: слегка упростил сложные фразы, добавил заголовки и сделал текст чуть более структурированным. Как вам результат? Заметна ли обработка? Поменялся ли стиль в лучшую сторону?

#worklife
👍194🔥4
Channel name was changed to «Big Ledovsky | блог DS лида»