Доска AI-объявлений
3.73K subscribers
270 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Всем привет! У микрофона Алина Щукина, DS-инженер из команды Horizontal ML Technologies и по совместительству Lead ML курсов в Академии Аналитиков Авито.

В далёком 2021 я была ученицей первого потока. За 4 года я прошла путь от junior до senior DS, от студентки до руководителя и соавтора ML-курсов.

Сегодня расскажу, как из юных и талантливых ребят мы готовим инженеров на нашем DS-треке. Итак, три столпа, на которых держится этот трек:

1️⃣ Теория из трёх основных частей.

— Фундаментальная база: статистика, SQL, Python и алгоритмы.

— Сердце любого DS — core ML: базовый и продвинутый курсы по машинному обучению. Экзамен по ним проходит в формате mock-собеседования — это настоящая подготовка к интервью.

— Инженерная часть: работа с датасетами, инфраструктура ML и ML System Design.

2️⃣ Практика и ещё раз практика. «Послушал лекцию — сделал тест» — это не наш формат.

Каждое задание — плотная работа с настоящими данными, эксперименты с архитектурами и подходами. Чем больше разных практических задач решено на учёбе, тем легче будет в реальной работе.

3️⃣ Боевая подготовка. Курсовой проект — реальная задача из практики DS-инженеров Авито.

Студент проходит полный цикл DS-разработки: от постановки бизнес-задачи и сбора данных до нагрузочного тестирования обученной модели в проде.

💡 Без менторской поддержки — никуда. Каждого студента ведёт опытный инженер.

Помощь — во всём: анализ кода, mock-собеседования, советы «бывалых» о том, как не выгорать и найти любимую специализацию, когда и в какие компании начинать подаваться — словом, всё, что тревожит ваш ум и душу :)

🚀 Новый набор уже начался. Если хотите не просто делать fit-predict, а разбираться в устройстве моделей под капотом, грамотно анализировать данные, решать прикладные задачи и расти в DS — обратите внимание на Академию ↓↓↓

Пройти отбор в Академию →
👍1283🎉21
This media is not supported in your browser
VIEW IN TELEGRAM
Наши DS на конференции IML

На видео ребята из DS SWAT, антифрода, монетизации и вертикальных DS команд. Подходите общаться и приходите на доклад Саши Ледовского про ранжирование платных объявлений в 15:30 в Зале 2.

#iml
🔥22🎉6👀5
Зовём в гости на Data Fest 2025: собираемся у нас в офисе в Москве.

Зарегистрироваться →

⌛️ Когда: 31 мая, с 11:00 до 22:30

📍 Где: ул Лесная, 7. БЦ «Белые Сады».

📌 Что в программе. Доклады из секций:
— ML in Marketplace
— Analytical DS
— Advanced LLM
— Соревновательный трек: обсудим Avito ML Cup 2025 и другие челленджи

💬 Помимо докладов будет ламповый нетворкинг, карьерные разговоры и DS-квиз, а вечером — афтепати на веранде!

Встретим лето красиво: с видом, музыкой и общением.

Регистрация уже открыта: переходите по ссылке ниже, жмите «Участвовать» и дождитесь подтверждения.

Будет жарко — и по контенту, и по атмосфере!

Зарегистрироваться →
🔥174👍1👀1
Новое на Хабре: как наша LLM помогает продавцам одежды

Бывает так, что частные продавцы оставляют описания товаров пустыми или пишут неинформативные тексты. Из-за этого покупателям не хватает данных, чтобы принять решение, и продажа не случается.

В категории «Одежда, обувь и аксессуары» у продавцов появилось элегантное решение: доверить описание LLM. Она сама составит продающий текст по фото.

В начале мая Сергей Кляхандлер, senior DS-инженер, поделился подробным рассказом про создание этой LLM: откуда взяли данные, какую выбрали архитектуру, как натренировали модель.

Если сами работаете с мультимодальными LLM-моделями, это мастрид.

Читать →
🔥11
Всем привет! На связи команда Академии Аналитиков Авито.

Своим DS-треком мы уже немного похвастались в недавнем посте.

Сейчас мы активно набираем новый поток и хотим больше рассказать об Академии. Почему к нам стоит идти? Как попасть? Что мы можем предложить ученикам?

Приглашаем всех на эфир 2 июня в 17:00. Расскажем про обучение, ответим на все ваши вопросы и поможем решиться на подачу заявки.

О чём расскажем
Кто и как может зачислиться в Академию
Какие этапы необходимо пройти перед поступлением
Как организовано обучение

А в конце проведём Q&A-сессию и ответим на вопросы.

Кто будет на встрече
🗣 Дима Кротов — старший аналитик в вертикали Работа
🗣 Миша Пирожков — аналитик в отделе Marketing
🗣 Алина Щукина — старший DS-инженер
🗣 Аня Прокопьева — проджект Академии Аналитиков Авито
🗣 Оля Красовская — старший проджект Академии Аналитиков Авито

📆 Где и когда встречаемся
Эфир будет в канале Коммуналка аналитиков 2 июня в 17:00. Там же можно задать вопросы для Q&A: подписывайтесь и следите за анонсами.
👍8🤝2😎2👎1
Привет! На связи Виталий Минаев, DS Team Lead в Коммерческом департаменте Авито. Я отвечаю за организацию Data Fest со стороны DS-функции.

✍️ Поделюсь эмоциями с прошлого Data Fest. Это первое мероприятие, которое мы организовывали вместе с командой и в принципе мой первый опыт организации мероприятий такого плана.

📅 У нас были насыщенные 2 месяца подготовки. Мы тогда нацелились сразу на 12 докладов от Авито, которые надо было хорошо подготовить. А ещё на офлайн-день, который надо было грамотно организовать, чтобы всем было максимально комфортно.

Во время подготовки мы несколько раз прогнали каждый доклад, в том числе на DS-митапах, где коллеги из разных DS-направлений задавали вопросы, челленджили докладчиков и помогали советами, как сделать презентации лучше.

А в организации нам помогла очень крутая команда наших devrel'ов, которые сделали всё просто на отлично.

🎯 Результаты Data Fest очень порадовали: на офлайн-день пришли примерно 250 человек и по результатам опроса оценили его на 9+ из 10.

Все остались довольны докладами, общением и атмосферой, которую наша команда смогла создать (да и погода не подкачала, был очень кайфовый теплый летний вечер — приятно вспомнить, смотря на фотки).

💪 Надеемся в этом году выступить ещё сильнее
(в этот раз в планах почти 20 докладов от Авито) и воссоздать ту самую классную атмосферу офлайн-дня.

👋 Ждём наших гостей в субботу в московском офисе Авито! Трансляцию можно будет смотреть онлайн — поделимся ссылкой в этом канале.
🔥275😍4
Подводим итоги Avito ML Cup 2025 и поздравляем победителей!

⚡️Задача «Поиск дублей»
1 место — Krotovuha (0.34777)
2 место — Mr Yellow (0.33701)
3 место — MISIS Neychev Loss (0.32965)

⭐️ Задача «Персональные рекомендации»
1 место — AmazMe (0.22375)
2 место — Vladimir Bazhenov (0.22147)
3 место — test run (0.22132)

▶️ Уже завтра победители выступят у нас на DataFest

Присоединяйтесь к трансляции, чтобы узнать об их решениях и послушать другие выступления:

Трансляция основного трека →

Трансляция соревновательного трека →
🔥10🎉4👀3
Привет!☄️

Делимся атмосферой дата феста, который проходит сейчас у нас в офисе ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
21
Друзья, привет! Это Саша Ледовский, DS Team Lead из монетизации.

Буквально за неделю до начала Data Fest прошла другая очень интересная конференция — IML. Я на ней побывал и даже выступил. В посте делюсь инсайтами и мыслями про три доклада, которые показались наиболее полезными.

👉 Общие впечатления от конфы крайне положительные.
Во-первых, была хорошая организация: идеальный тайминг, хорошая съёмка, комфортное количество людей.

Во-вторых, у ребят был довольно жёсткий отбор докладов и подготовка спикеров, поэтому выступления были хорошего качества. Лично я раза 3 созванивался с программным комитетом, показывая улучшенную версию доклада.

✍️ Понравился рассказ про ML-платформу в Т-Банке. Там ребята отработали боли таких придирчивых пользователей, как я.

Например, частая боль, что с юпитером в ML-платформах можно работать только через браузер: VSCode не подключишь, по ssh не зайдешь. По словам создателей платформы, У Т-Банка это решено: можно и по ssh зайти, и свой VSCode подключить, и свой образ с окружением собрать в два клика.

Инсайт для менеджеров: соотношение разработчиков платформы к DS примерно 1 к 20. Мне кажется, это выгодный размен за то, что DS не тратит время на инфру.

✍️ Запомнился доклад Я.Маркета про «дискавери» рекомендации — это те, что связаны не с вашими последними кликами, а, скорее с вашими долгосрочными интересами.

Реализация опиралась на несколько фичей, но это была не глобальная переделка системы, а, скорее, адаптация существующих подходов. Например, за счёт доработки у стандартного кандгена-трансформера, в котором сильно расширили контекст и перевели в оффлайн.

✍️ Ну и, конечно, мощным был доклад про рекомендации в HeadHunter — рассказ про эволюцию системы более чем за 10 лет. Сейчас рекомендации вакансий дают HH большую часть откликов.

Интересная особенность, что их рекомендации — это практически поиск. Я не задумывался об этом ранее, но кандидаты там заполняют резюме и это, по сути, поисковой запрос. Поэтому одна из их ключевых архитектур — контентный DSSM, который обучается на близости резюме и вакансии.

На этом всё. Надеюсь, вам было интересно. Следите за нашим каналом — будет ещё много инсайтов.
👍1913
Салют! На связи Даня Седашов, Senior DS-инженер из команды Monetization Efficiency.

Сегодня расскажу, как мы принимаем изменения в ранжировании перед запуском A/B-тестов.

Вы когда-нибудь задумывались, какую метрику оптимизирует рекомендательная выдача на Авито? 🤔


Мы в первую очередь заботимся об опыте пользователей, поэтому выдача должна быть релевантной и разнообразной.

Но наши пользователи — это не только покупатели, но и продавцы, и об их опыте мы тоже хотим заботиться.

Здесь встаёт вопрос распределения внимания покупателей, а ещё многие продавцы пользуются услугами продвижения, — это мы тоже должны учесть.

🧠 Получается, что построение выдачи — задача многокритериальной оптимизации. Предположим, мы придумали новую монетизационную механику, которая повышает эффективность продвижения.

Как внедрение такой механики скажется на разнообразии ленты или её релевантности?

🔢 Для оценки эффектов и настройки параметров мы используем офлайн-приёмку. Схема приёмки следующая. Соберём некоторый репрезентативный пул запросов, далее поднимем 2 версии сервиса рекомендаций: один с нашими изменениями, один — без.

Пошлём каждый запрос в обе версии — мы называем это обстрелом — и сравним контрольные и модифицированные выдачи.

🧐 Как сравнивать выдачи? Для каждого объявления мы знаем набор свойств: от какого продавца, из какой категории, какие у него оценки релевантности, кликабельности, ожидаемой выручки и прочего.

По этим свойствам мы можем составить прокси к любой желаемой метрике выдачи и сравнить две версии ранжирования между собой.

✍️ Разберём на примере. При внедрении новой монетизационной механики хотим понять, в какую сторону поменяется релевантность.

Для каждой выдачи считаем сумму по релевантностям отранжированных объявлений, взвешенную на видимость их позиций — эдакий DCG.

Вычисляем, на сколько новые выдачи в среднем отклоняются от контрольных по такой метрике. Например, если разница околонулевая — отлично; в районе −10% — плохой сигнал.


Практически каждое изменение мы проверяем на такой приёмке по большому числу метрик. Также мы используем офлайн-приёмку для подбора параметров выдачи, а ещё такой инструмент оказался очень полезен для дебага.
🔥11👍1051
Всем привет! На связи Рыжков Александр, юнит-лид созданного в Авито AI Lab направления R&D в GenAI.

👋 Во-первых, давайте знакомиться. Присоединился я к Авито совсем недавно, перейдя из Sber AI Lab, где:

— Рулил командой AutoML (LightAutoML — наше детище)
— Участвовал с коллегами в соревнованиях на Kaggle (и стал одним из 10 по миру 4х Kaggle Grandmaster)
— Выступал в роли «патологоанатома по данным»: чинил то, что должно было работать, но почему-то отказывалось

А теперь самое интересное: что мы будем делать в своем R&D и зачем мы нужны? Давайте разбираться вместе!


🧬 Кто мы и что будем делать? Пока что нас немного, но мы «в тельняшках» — активно растём и развиваемся, чтобы создавать новые ML-технологии с использованием cutting-edge научных результатов в следующих областях:

🧠 Генеративного компьютерного зрения (CV)
🗣 Speech-To-Text и Text-To-Speech (TTS)
🧱 Перехода от 2D-изображений к 3D-моделям
🕵️‍♂️ Детекции DeepFake на фото и видео
🔬 ...и других исследовательских направлений

🧭 Зачем мы Авито? Наша основная ценность — как можно раньше увидеть возможности для улучшения существующих технологий и создания новых областей, которые будут полезны бизнесу.

Мы делаем не «ресёрч ради ресёрча», а именно прикладные исследования — находим связки между горячими научными областями и внутренними задачами Авито.

Мы также коллаборируем с DS-командами, чтобы все наши PoC проходили A/B-тесты, становились действующими решениями и новыми продуктами, улучшающими клиентский путь.

✍️ Вместо заключения. Мы сейчас активно нанимаем исследователей и ML-инженеров с опытом чтения научных статей.

Поэтому если чувствуете в себе силы джедая анализа данных, будем рады вашим откликам ↓

Смотреть вакансии →
🔥37👍98👏2
В предыдущем посте (↑) мы познакомились с Сашей, единственным в России 4х Kaggle Grandmaster и руководителем R&D юнита в AI Lab Авито.

А уже в эту среду, 18-го июня в 17:30, можно будет послушать его онлайн-лекцию. Саша расскажет:

🏆 как устроены соревнования на Kaggle
🏆 какие инструменты используют победители
🏆 как эта платформа может помочь в карьере

Зарегистрироваться →

Онлайн-лекция проходит в рамках набора абитуриентов на нашу совместную магистратуру с ВШЭ. У нас, кстати, две магистратуры — одна с МФТИ, другая с ВШЭ, и каждая по-своему классная.

🔹 Магистратура от МФТИ «Прикладное машинное обучение и анализ данных» — это про технику: алгоритмы, архитектуры, инженерия. Тут учатся строить реально мощные ML-системы, которые работают на больших нагрузках.

🔹А вот программа от ВШЭ «Машинное обучение в цифровом продукте» — это про бизнес и продуктовую сторону. Там учат использовать ML для решения задач в реальных проектах: исследовать данные, проверять гипотезы, запускать A/B-тесты и создавать полноценные ML-продукты под рынок.

Скоро расскажем больше о каждой из программ — следите за постами.

Собираетесь заглянуть к Саше на онлайн-лекцию?
👍уже регистрируюсь
🤔 — хожу на лекции только к пятикратным грандмастерам
👀 — мне неактуально
👍139🤔3👀1
Привет! Меня зовут Саша Романенко, я руковожу DS-командой Search Quality в Авито.

Основная цель нашей команды — улучшать опыт пользователей, помогая им быстрее найти нужный товар (или работу и даже недвижимость!).

В Авито есть несколько команд, улучшающих работу поиска. Наша занимается сбором финальной поисковой ленты с учётом всех факторов ранжирования: от предсказаний ML-моделей до бизнес-правил и оценок репутационной системы Авито.

Направления работы

При составлении поисковой выдачи наша команда учитывает множество аспектов.

1️⃣ Характеристики объявлений и запроса. Мы настраиваем баланс между байерским качеством и силой продвижения, которое имеет объявление. В последнее время ведём исследования новых методов построения ленты, оптимизирующих целевые метрики Авито. Здесь мы тесно работаем с командой монетизации.

2️⃣ Продуктовые пожелания. Например, выдача должна быть разнообразной, а объявления из других регионов, но с доставкой, вполне могут быть показаны наряду с локальными объявлениями.

3️⃣ Распределение трафика. Важно, чтобы все объявления имели возможность получить просмотры и контакты.

4️⃣ Расположение объявлений на выдаче. Кроме них в результатах поиска видно и другие элементы, например, рекламу и информационные баннеры. Взаимное расположение всех элементов — отдельная большая задача, которой занимается наша команда.

Особенности работы

⚡️ Highload. Поиск Авито — высоконагруженная система. Для каждого запроса нужно подобрать 2–3 тысячи кандидатов, получить данные по ним и отранжировать, и сделать это всё за полсекунды. Наши DS’ы сами пишут код в production сервисы и тесно взаимодействуют с backend инженерами.

🧪 A/B-тестирование. Решения в компании принимают на основе данных, поэтому все поисковые изменения — как продуктовые, так и технические — сопровождаются оценкой через A/B-тесты.

🎨 Развиваем свои инструменты разработки. Поиск — сложная система, и изменения в нём требуют тщательной проверки. Поэтому мы развиваем внутренние инструменты для автоматизации рутины и оценки изменений поиска — как качественной, так и количественной. Инструментами пользуются все команды, развивающие поисковый стек технологий.
👍166🔥5🤯2
Привет-привет! С вами Катя Солоднёва, DS Researcher (да, в Авито и такие встречаются). Что делают ресёрчеры? Конечно же, пишут статьи.

Так, недавно одну из наших статей приняли на A* конференцию WWW’25. Статья содержит описание первого российского open-source бенчмарка по автобиддингу BAT (Benchmark for Auto-bidding Task) от Avito.

Сейчас расскажу поподробнее, в чём заключалась наша работа.

Представьте: вы разрабатываете крутой алгоритм для автономных машин, а тестируете его на картах Москвы времён Юрия Долгорукого. Примерно так выглядела ситуация с исследованиями автобиддинга до нашей работы.

🤖 Что такое автобиддинг. TL;DR: Продавец хочет больше кликов → даёт деньги платформе → нужно умно распределить денежки по аукционам → profit!

Более развернуто: когда у вас есть бюджет на продвижение, но вы не хотите вручную участвовать в тысячах микро-аукционов каждый день, на помощь приходит автобиддинг.

Алгоритм берёт ваш бюджет и автоматически решает, сколько ставить в каждом конкретном аукционе за место в выдаче.

🤔 Проблема: IPinYou dataset или «10 лет синтетики». Большинство исследований в области автобиддинга используют датасет IPinYou 2014 года. Там всего 9 продавцов (!) и очень мало фичей.

Исследователи от отчаяния начали добавлять туда синтетические фичи, превращая сравнения алгоритмов в что-то среднее между наукой и гаданием на кофейной гуще.

☝️ Наше решение: реальные данные из реального мира.
Мы с коллегами-исследователями, Александрой Хирьяновой и Андреем Пудовиковым решили показать миру новый датасет на реальных данных:

👉 9 000+ продавцов вместо жалких 9
👉 Данные агрегированы на основе миллионов аукционов (VCG и FPA)
👉 Разброс по времени, регионам и микрокатегориям
👉 Никаких синтетических данных — только хардкор реальной жизни

По сути, мы дали комьюнити возможность тестировать алгоритмы в условиях, максимально приближенных к боевым. Как переход от игрушечного полигона к настоящему стрельбищу.

🧠 А что ещё? Чтобы показать, что на наших данных что-то вообще работает, мы добавили к датасету 5 алгоритмов к сравнению. Тем самым получили целый бенчмарк! 3 алгоритма основаны на других работах, а 2 взяты на основе алгоритмов Авито, которые реально тестировались в проде.

✍️ Ссылочки:
Статья на Arxiv →
Код на GitHub →
и рубрика «Пресса о нас»: по ссылке найдёте статью в Forbes

В комментариях выложу наш постер с конфы. А в следующий раз расскажу, как сгоняли на конфу (между прочим, в Австралии), не переключайтесь!
🔥36👏8👍5🎉31
Запись онлайн-лекции по Kaggle

18 июня Саша Рыжков, наш юнит-лид R&D и 4х Kaggle Grandmaster, рассказал, как использовать эту платформу для прокачки навыков и карьерного роста в Data Science.

Смотреть запись →

💡 Про Сашу и AI Lаb Авито писали в недавнем посте.

💡 Это была лекция в рамках набора на нашу совместную магистратуру с ВШЭ.

За новостями для абитуриентов там и на другой нашей магистратуре — в МФТИ — тоже можно следить в телеграме.

Магистратура во ВШЭ →
Магистратура в МФТИ →
❤‍🔥12👀5👍211