Доска AI-объявлений
3.72K subscribers
269 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Через час начинаем эфир о рекомендациях

Толя Мастрюков, Senior DS Engineer, выйдет на связь и расскажет о рекомендательных системах.

Будет теория, практика и ответы на ваши вопросы — их можно оставить под предыдущим постом.

Ждем всех в 17:00 в этом канале.
👍12
Чат для ваших вопросов!
👍2
Live stream finished (1 hour)
Всем привет! У микрофона Алина Щукина, DS-инженер из команды Horizontal ML Technologies и по совместительству Lead ML курсов в Академии Аналитиков Авито.

В далёком 2021 я была ученицей первого потока. За 4 года я прошла путь от junior до senior DS, от студентки до руководителя и соавтора ML-курсов.

Сегодня расскажу, как из юных и талантливых ребят мы готовим инженеров на нашем DS-треке. Итак, три столпа, на которых держится этот трек:

1️⃣ Теория из трёх основных частей.

— Фундаментальная база: статистика, SQL, Python и алгоритмы.

— Сердце любого DS — core ML: базовый и продвинутый курсы по машинному обучению. Экзамен по ним проходит в формате mock-собеседования — это настоящая подготовка к интервью.

— Инженерная часть: работа с датасетами, инфраструктура ML и ML System Design.

2️⃣ Практика и ещё раз практика. «Послушал лекцию — сделал тест» — это не наш формат.

Каждое задание — плотная работа с настоящими данными, эксперименты с архитектурами и подходами. Чем больше разных практических задач решено на учёбе, тем легче будет в реальной работе.

3️⃣ Боевая подготовка. Курсовой проект — реальная задача из практики DS-инженеров Авито.

Студент проходит полный цикл DS-разработки: от постановки бизнес-задачи и сбора данных до нагрузочного тестирования обученной модели в проде.

💡 Без менторской поддержки — никуда. Каждого студента ведёт опытный инженер.

Помощь — во всём: анализ кода, mock-собеседования, советы «бывалых» о том, как не выгорать и найти любимую специализацию, когда и в какие компании начинать подаваться — словом, всё, что тревожит ваш ум и душу :)

🚀 Новый набор уже начался. Если хотите не просто делать fit-predict, а разбираться в устройстве моделей под капотом, грамотно анализировать данные, решать прикладные задачи и расти в DS — обратите внимание на Академию ↓↓↓

Пройти отбор в Академию →
👍1283🎉21
This media is not supported in your browser
VIEW IN TELEGRAM
Наши DS на конференции IML

На видео ребята из DS SWAT, антифрода, монетизации и вертикальных DS команд. Подходите общаться и приходите на доклад Саши Ледовского про ранжирование платных объявлений в 15:30 в Зале 2.

#iml
🔥22🎉6👀5
Зовём в гости на Data Fest 2025: собираемся у нас в офисе в Москве.

Зарегистрироваться →

⌛️ Когда: 31 мая, с 11:00 до 22:30

📍 Где: ул Лесная, 7. БЦ «Белые Сады».

📌 Что в программе. Доклады из секций:
— ML in Marketplace
— Analytical DS
— Advanced LLM
— Соревновательный трек: обсудим Avito ML Cup 2025 и другие челленджи

💬 Помимо докладов будет ламповый нетворкинг, карьерные разговоры и DS-квиз, а вечером — афтепати на веранде!

Встретим лето красиво: с видом, музыкой и общением.

Регистрация уже открыта: переходите по ссылке ниже, жмите «Участвовать» и дождитесь подтверждения.

Будет жарко — и по контенту, и по атмосфере!

Зарегистрироваться →
🔥174👍1👀1
Новое на Хабре: как наша LLM помогает продавцам одежды

Бывает так, что частные продавцы оставляют описания товаров пустыми или пишут неинформативные тексты. Из-за этого покупателям не хватает данных, чтобы принять решение, и продажа не случается.

В категории «Одежда, обувь и аксессуары» у продавцов появилось элегантное решение: доверить описание LLM. Она сама составит продающий текст по фото.

В начале мая Сергей Кляхандлер, senior DS-инженер, поделился подробным рассказом про создание этой LLM: откуда взяли данные, какую выбрали архитектуру, как натренировали модель.

Если сами работаете с мультимодальными LLM-моделями, это мастрид.

Читать →
🔥11
Всем привет! На связи команда Академии Аналитиков Авито.

Своим DS-треком мы уже немного похвастались в недавнем посте.

Сейчас мы активно набираем новый поток и хотим больше рассказать об Академии. Почему к нам стоит идти? Как попасть? Что мы можем предложить ученикам?

Приглашаем всех на эфир 2 июня в 17:00. Расскажем про обучение, ответим на все ваши вопросы и поможем решиться на подачу заявки.

О чём расскажем
Кто и как может зачислиться в Академию
Какие этапы необходимо пройти перед поступлением
Как организовано обучение

А в конце проведём Q&A-сессию и ответим на вопросы.

Кто будет на встрече
🗣 Дима Кротов — старший аналитик в вертикали Работа
🗣 Миша Пирожков — аналитик в отделе Marketing
🗣 Алина Щукина — старший DS-инженер
🗣 Аня Прокопьева — проджект Академии Аналитиков Авито
🗣 Оля Красовская — старший проджект Академии Аналитиков Авито

📆 Где и когда встречаемся
Эфир будет в канале Коммуналка аналитиков 2 июня в 17:00. Там же можно задать вопросы для Q&A: подписывайтесь и следите за анонсами.
👍8🤝2😎2👎1
Привет! На связи Виталий Минаев, DS Team Lead в Коммерческом департаменте Авито. Я отвечаю за организацию Data Fest со стороны DS-функции.

✍️ Поделюсь эмоциями с прошлого Data Fest. Это первое мероприятие, которое мы организовывали вместе с командой и в принципе мой первый опыт организации мероприятий такого плана.

📅 У нас были насыщенные 2 месяца подготовки. Мы тогда нацелились сразу на 12 докладов от Авито, которые надо было хорошо подготовить. А ещё на офлайн-день, который надо было грамотно организовать, чтобы всем было максимально комфортно.

Во время подготовки мы несколько раз прогнали каждый доклад, в том числе на DS-митапах, где коллеги из разных DS-направлений задавали вопросы, челленджили докладчиков и помогали советами, как сделать презентации лучше.

А в организации нам помогла очень крутая команда наших devrel'ов, которые сделали всё просто на отлично.

🎯 Результаты Data Fest очень порадовали: на офлайн-день пришли примерно 250 человек и по результатам опроса оценили его на 9+ из 10.

Все остались довольны докладами, общением и атмосферой, которую наша команда смогла создать (да и погода не подкачала, был очень кайфовый теплый летний вечер — приятно вспомнить, смотря на фотки).

💪 Надеемся в этом году выступить ещё сильнее
(в этот раз в планах почти 20 докладов от Авито) и воссоздать ту самую классную атмосферу офлайн-дня.

👋 Ждём наших гостей в субботу в московском офисе Авито! Трансляцию можно будет смотреть онлайн — поделимся ссылкой в этом канале.
🔥275😍4
Подводим итоги Avito ML Cup 2025 и поздравляем победителей!

⚡️Задача «Поиск дублей»
1 место — Krotovuha (0.34777)
2 место — Mr Yellow (0.33701)
3 место — MISIS Neychev Loss (0.32965)

⭐️ Задача «Персональные рекомендации»
1 место — AmazMe (0.22375)
2 место — Vladimir Bazhenov (0.22147)
3 место — test run (0.22132)

▶️ Уже завтра победители выступят у нас на DataFest

Присоединяйтесь к трансляции, чтобы узнать об их решениях и послушать другие выступления:

Трансляция основного трека →

Трансляция соревновательного трека →
🔥10🎉4👀3
Привет!☄️

Делимся атмосферой дата феста, который проходит сейчас у нас в офисе ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
21
Друзья, привет! Это Саша Ледовский, DS Team Lead из монетизации.

Буквально за неделю до начала Data Fest прошла другая очень интересная конференция — IML. Я на ней побывал и даже выступил. В посте делюсь инсайтами и мыслями про три доклада, которые показались наиболее полезными.

👉 Общие впечатления от конфы крайне положительные.
Во-первых, была хорошая организация: идеальный тайминг, хорошая съёмка, комфортное количество людей.

Во-вторых, у ребят был довольно жёсткий отбор докладов и подготовка спикеров, поэтому выступления были хорошего качества. Лично я раза 3 созванивался с программным комитетом, показывая улучшенную версию доклада.

✍️ Понравился рассказ про ML-платформу в Т-Банке. Там ребята отработали боли таких придирчивых пользователей, как я.

Например, частая боль, что с юпитером в ML-платформах можно работать только через браузер: VSCode не подключишь, по ssh не зайдешь. По словам создателей платформы, У Т-Банка это решено: можно и по ssh зайти, и свой VSCode подключить, и свой образ с окружением собрать в два клика.

Инсайт для менеджеров: соотношение разработчиков платформы к DS примерно 1 к 20. Мне кажется, это выгодный размен за то, что DS не тратит время на инфру.

✍️ Запомнился доклад Я.Маркета про «дискавери» рекомендации — это те, что связаны не с вашими последними кликами, а, скорее с вашими долгосрочными интересами.

Реализация опиралась на несколько фичей, но это была не глобальная переделка системы, а, скорее, адаптация существующих подходов. Например, за счёт доработки у стандартного кандгена-трансформера, в котором сильно расширили контекст и перевели в оффлайн.

✍️ Ну и, конечно, мощным был доклад про рекомендации в HeadHunter — рассказ про эволюцию системы более чем за 10 лет. Сейчас рекомендации вакансий дают HH большую часть откликов.

Интересная особенность, что их рекомендации — это практически поиск. Я не задумывался об этом ранее, но кандидаты там заполняют резюме и это, по сути, поисковой запрос. Поэтому одна из их ключевых архитектур — контентный DSSM, который обучается на близости резюме и вакансии.

На этом всё. Надеюсь, вам было интересно. Следите за нашим каналом — будет ещё много инсайтов.
👍1913
Салют! На связи Даня Седашов, Senior DS-инженер из команды Monetization Efficiency.

Сегодня расскажу, как мы принимаем изменения в ранжировании перед запуском A/B-тестов.

Вы когда-нибудь задумывались, какую метрику оптимизирует рекомендательная выдача на Авито? 🤔


Мы в первую очередь заботимся об опыте пользователей, поэтому выдача должна быть релевантной и разнообразной.

Но наши пользователи — это не только покупатели, но и продавцы, и об их опыте мы тоже хотим заботиться.

Здесь встаёт вопрос распределения внимания покупателей, а ещё многие продавцы пользуются услугами продвижения, — это мы тоже должны учесть.

🧠 Получается, что построение выдачи — задача многокритериальной оптимизации. Предположим, мы придумали новую монетизационную механику, которая повышает эффективность продвижения.

Как внедрение такой механики скажется на разнообразии ленты или её релевантности?

🔢 Для оценки эффектов и настройки параметров мы используем офлайн-приёмку. Схема приёмки следующая. Соберём некоторый репрезентативный пул запросов, далее поднимем 2 версии сервиса рекомендаций: один с нашими изменениями, один — без.

Пошлём каждый запрос в обе версии — мы называем это обстрелом — и сравним контрольные и модифицированные выдачи.

🧐 Как сравнивать выдачи? Для каждого объявления мы знаем набор свойств: от какого продавца, из какой категории, какие у него оценки релевантности, кликабельности, ожидаемой выручки и прочего.

По этим свойствам мы можем составить прокси к любой желаемой метрике выдачи и сравнить две версии ранжирования между собой.

✍️ Разберём на примере. При внедрении новой монетизационной механики хотим понять, в какую сторону поменяется релевантность.

Для каждой выдачи считаем сумму по релевантностям отранжированных объявлений, взвешенную на видимость их позиций — эдакий DCG.

Вычисляем, на сколько новые выдачи в среднем отклоняются от контрольных по такой метрике. Например, если разница околонулевая — отлично; в районе −10% — плохой сигнал.


Практически каждое изменение мы проверяем на такой приёмке по большому числу метрик. Также мы используем офлайн-приёмку для подбора параметров выдачи, а ещё такой инструмент оказался очень полезен для дебага.
🔥11👍1051