Доска AI-объявлений
3.73K subscribers
270 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Завершаем цикл про собеседования и сегодня рассказываем про ML System Design

На предыдущих этапах мы поговорили о теории по Питону и ML, но в реальности работа редко формулируется в формате теоретической задачи. Поэтому на ML System Design проверяем, как кандидат переводит кейсы реальной жизни на язык ML.

Обычно MLSD состоит из следующих пунктов:
🔵Описание кейса
🔵Польза для бизнеса
🔵Формализация задачи
🔵ML-модель
🔵Выкатка в прод

Некоторые команды упирают на отдельные части MLSD, что-то убирают или добавляют. Например, в монетизации есть значимый кусок математической постановки, без которой разговаривать про ML сложно.

Описание кейса и польза для бизнеса. Сначала интервьюер озвучивает кейс, суть которого зависит от команды. Мы предлагаем задачу из монетизации, есть варианты от модерации, поиска и других команд.

Иногда это ставит кандидата в тупик, если прежде он не решал такие задачи. Это не страшно. Я видела, как опытные специалисты проходят собеседование хуже, чем люди без опыта, потому что пытаются свести задачу к той, которую уже видели. Это может мешать на следующих этапах.

Дальше рассказ продолжает кандидат, а собеседующий задаёт дополнительные и наводящие вопросы.

Формализация задачи. Мы смотрим, как DS справляется с поставленной задачей: зачем вообще нужно её решать, на какие бизнес-метрики будет ориентироваться? Этап отличает MLSD от ML-теории.

ML-модель и выкатка в прод. Обычно на этом этапе уже выяснили, какую задачу решаем. Поэтому можно освежить знания про ML и подумать вот о чём:
🔵Какие нужны данные?
🔵Какую модель хотим использовать — катбуст или нейронку? Почему?
🔵Какой для задачи нужен лосс: регрессия или классификация?
🔵На какие метрики стоит посмотреть?
🔵Как модель будет работать в проде?
🔵На что будем смотреть, чтобы выкатить? А если выкатим?

Ответы зависят от исходной задачи и условий. Не нужно бояться спрашивать, какие данные есть, сколько надо ресурсов, где будет крутиться модель и сколько будет пользователей. Но будьте готовы, что могут попросить рассмотреть разные случаи 😅

Как подготовится к ML System Design
1️⃣Посмотреть видео с собеседованием на YouTube или ВК
2️⃣Посмотреть конкретные кейсы в открытом доступе.
3️⃣Подготовить доску, которую можно просматривать вместе с собеседующим. Будете делать на ней заметки и рисунки. Это очень упрощает жизнь, потому что помогает соблюдать структуру. Я использую excalidraw.com, но вы можете выбрать любой удобный инструмент.

А вы уже проходили ML System Design? Напишите в комментариях, какие материалы для подготовки вы используете ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍6
Всё ещё сканируем инфополе без агентов для разбора новостей в мире ML. Всем привет, на связи Данила Бочарников, DS-инженер команды поиска Авито.

🧠 Гонка переходит в физический мир
OpenAI, Anthropic, Google и другие гиганты продолжают бороться за первенство в цифровом мире LLM, но будущее ИИ не только там.

В Мюнхене открыли крупнейший в Европе полигон для обучения роботов. Их главная цель — связать симуляцию и реальность. Узнать детали и посмотреть видео

🎾 ИИ в большом теннисе
Когда-то мы удивлялись, что ИИ обыграл человека в шахматы. Теперь пришёл черёд шахмат на большой скорости. Так называют теннис. Это один из самых сложных видов спорта с точки зрения координации. Galbot Robotics выложила видео и код робота, который пытается играть в теннис.

Пока получается неуклюже, но мяч он хоть как-то отбивает. Ровно так же «неуклюже» когда-то разговаривали первые болталки. Посмотрим, какая будет скорость прогресса здесь.

 Вопрос на подумать: когда роботы станут настоящим хайпом, как сейчас LLM?
🔥 — Верю, что первые ласточки появятся через пару лет
🤔 — Думаю, горизонт 5–10 лет, не раньше
👎 — До этого ещё жить и жить, минимум 15 лет

Пишите свои варианты в комментариях! Может, у вас уже дома пылесос бунтует? 😁
🔥12🤔113
Итоги конкурса Avito Data Quest! 🕹️

Проект завершён, а результаты впечатляют: 5427 человек решили пройти игру (вау), но только 680 смогли дать ответы на все вопросы. Коллеги — наше уважение 💪

Получили отличные решения мини-кейсов, некоторые подходы удивили и порадовали детальной проработкой. Спасибо всем участникам 🤗

5 игроков, которые набрали наибольшее количество баллов
Илья — @kom...i
Илья — @bra...m
Пара Doc's — @tg_...2
Александр — @jes...l
Петр — @erm...k

🥳 Ребята, поздравляем! Напишем вам в понедельник-вторник, чтобы договориться о вручении призов. Пара Doc's, напиши, пожалуйста, как с тобой связаться, чтобы доставить приз.

С остальными не прощаемся — мы уже продумываем новые активности.
Ждёте ML Cup?

Пока с вас реакция про Avito Data Quest, и до скорых встреч!

😎 — участвовал, всё чётко
👾 — Марио по офису крутой
👍 — хочу ещё такие игры
👍9👾6😎521
Помните, мы рассказывали, что Андрей Венжега формирует повестку на С-level-кемпе SnowBase? Кемп закончился, а впечатления остались. Поэтому мы собрали свежие отзывы и добавили к ним фотографий, чтобы вы тоже узнали, что происходило эти три дня!

Кэмп выдался очень насыщенным, а что понравилось больше всего, читайте в карточках ⬆️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
22🔥15👍7👏32🆒1
Мы отобрали конференции, статьи с которых наиболее близки к тому, чем мы занимаемся в команде Monetization Efficiency и готовы ими с вами поделиться.

Верхнеуровнево я делю все конференции на два блоĸа: индустриальные и теоретичесĸие.

Ниже рассмотрим топовые конференции и приведем ссылки на статьи.

Индустриальные

IR (Special Interest Group on Information Retrieval / SIGIR)
📌 Тема: Извлечение информации, поиск и ранжирование.
📎 Ссылĸи: 2026, 2025, 2024

KDD (Knowledge Discovery and Data Mining)
📌 Тема: Области применения интеллектуального анализа данных, аналитики данных, DS, прикладного машинного обучения и искусственного интеллекта. Основное внимание статьям, которые либо решают, либо углубляют понимание проблем, связанных с внедрением DS и технологий искусственного интеллекта в реальных условиях.
📎 Ссылĸи: 2025 (research, applied, datasets), 2024 (applied, research), 2023 (applied, research)

WWW (The Web Conference / The International World Wide Web Conference)
📌 Тема: Понимание современного состояния и эволюции Интернета через призму информатики, вычислительных социальных наук, экономики, политики и других дисциплин.
📎 Ссылĸи: 2026 (research, industry, short), 2025, 2024 (research, industry, short)

WSDM (Web Search and Data Mining)
📌 Темы: Связанные с поиском и интеллектуальным анализом данных.
📎 Ссылĸи: 2026, 2025, 2024

RecSys (Conference on Recommender Systems)
📌 Тема: Новые результаты исследований, системы и методы в области рекомендательных систем.
📎 Ссылĸи: 2025, 2024, 2023

EC (Conference on Economics & Computation)
📌 Тема: Достижения в теории, эмпирических исследованиях и прикладных задачах на стыке экономики и вычислительной техники.
📎 Ссылĸи: 2025, 2024, 2023

Теоретичесĸие

NeurIPS (Conference on Neural Information Processing Systems)
📌 Тема: Обмен результатами исследований в области ИИ и ML.
📎 Ссылĸи: accepted papers

ICML (International Conference on Machine Learning)
📌 Тема: Передовые исследования во всех аспектах ML, применяемого в связанных областях: ИИ, статистика и DS, машинное зрение, вычислительная биология, распознавание речи и робототехника.
📎 Ссылĸи: accepted papers

ICLR (International Conference on Learning Representations)
📌 Тема: Передовые исследования во всех аспектах глубокого обучения, применяемого в областях ИИ, статистики и анализа данных, а также в таких важных областях, как машинное зрение, вычислительная биология, распознавание речи, понимание текста, игры и робототехника.
📎 Ссылĸи: accepted papers

В ĸомментариях рассĸажите про интересные ĸонференции в вашем DS-направлении 😃
Лайк тоже будет кстати 😉
А если поделитесь с друзьями — вообще буду рад 🤝
🔥124👍3
Собрать за 8 часов AI-агента, который заменяет CEO: шутка или нет? 🤔

Всем привет! Давайте знакомиться: меня зовут Владимир Димитров, я работаю в Авито в команде DS Jobs.

Недавно я был ментором на хакатоне SnowBase от South Hub. Попал туда благодаря AITH, за что им большое спасибо!

Что меня зацепило в хакатоне: участникам предложили сделать AI-агента, который сможет заменить CEO компании. Согласитесь, уже звучит достаточно любопытно)

Участники работали в формате вайбкодинга, а основным инструментом был Claude Code. Отдельное удовольствие — наблюдать, как руководители промптили свои хотелки, а потом удивлялись, когда получали рабочий функционал.

И самое интересное: всего за 8 часов участникам удалось собрать рабочий прототип. Не идеальный, не production-ready, но уже такой, который можно показать, потестировать и обсудить предметно.

Хакатон получился очень кайфовым: сильные участники, интересный формат и много живого интереса к AI — не на словах, а на практике.

Мы, кстати, тоже планируем сделать свой однодневный хакатон на Data Fest 2026.

Что скажете? 👇
❤️ — кайф, обязательно приду
👍 — не приду, но звучит интересно
🤔 — напишу мысли в комментариях
19🔥16👍9😐21🤷‍♂1
Дайджест вакансий в DS

Собрали несколько карьерных возможностей для специалистов по Data Science — взгляните:

👨🏻‍💻 Тимлид DS-команды ML-платформы определения параметров объявлений

Это задачи на стыке менеджмента, архитектуры и Data Science в высоконагруженном сервисе. Предстоит развивать и масштабировать ML-платформу, управлять командой из пяти инженеров, отвечать за архитектуру и техническую зрелость сервисов, автоматизировать пайплайны обучения и разметки данных, в том числе с применением LLM.

Откликнуться →

👨🏻‍💻 Старший Data Scientist в команду Поиска

Вы будете разрабатывать RAG-системы и модели векторного поиска объявлений, выстраивать пайплайны валидации для ассистентного поиска и обеспечивать полный цикл разработки ML-решений, чтобы улучшить опыт покупателей.

Откликнуться →

👨🏻‍💻 DS инженер в команду Авито Рекламы

Предстоит разрабатывать и улучшать модели предсказания кликов и конверсий, обеспечивать полный цикл внедрения ML в продакшен, проектировать и проводить A/B-эксперименты для кратного роста выручки и повышать качество сервисов на Python.

Откликнуться →

👨🏻‍💻 Старший Data Scientist в команду Авито Рекламы

Вы будете заниматься разработкой ML-модели для автобидинга и умного распределения рекламных бюджетов, применять методы сквозного и совместного ранжирования рекламной и органической выдачи и проектировать сложные A/B-эксперименты, чтобы обеспечить кратный рост рекламной системы.

Откликнутся →

👨🏻‍💻 Старший Data Scientist в команду LLM

Будете исследовать и улучшать нашу базовую LLM, адаптируя лучшие open-source модели под русский язык и домен, оптимизировать скорость инференса, разрабатывать платформенные LLM-решения, чтобы повысить качество наших продуктов.

Откликнуться →

👨🏻‍💻 DS инженер в команду Авито Путешествий

Вакансия от команды DS-экспертов разного профиля (classic ML, uplift modeling, NLP/LLM, CV) из вертикали Недвижимость. Их основные направления: развитие Авито Путешествий, категории «Новостройки» и транзакций в жилой недвижимости, а также автоматизация процессов.

Откликнуться →
15🔥8👍7🦄4❤‍🔥3
Всем привет! А у нас опять рубрика вопрос месяца!
Сегодня будем разбираться с вопросом: Data Science в бигтехе — это просто модная поддерживающая функция или реальный драйвер бизнеса?
3👍2
Please open Telegram to view this post
VIEW IN TELEGRAM
Го учиться масштабировать решения!

Привет! Я Марк, работаю DS-инженером команды LLM в Авито. Год назад я закончил ШАД и, несмотря на то, что уже работал в это время, решил пойти учиться дальше. Многие спрашивают зачем, так что расскажу.

Вышка и Авито в прошлом году запустили магистратуру «Машинное обучение в цифровом продукте». Там 30 бесплатных мест, а преподаватели — практики из Авито. Я попал в первый набор 💪

Зачем мне это понадобилось. В большой компании всё уже настроено: пайплайны крутятся, инфраструктура работает, модели деплоятся. Ты решаешь задачи внутри готовой системы, но слабо представляешь, как и почему она построена именно так. Мне хотелось в этом разобраться.

В магистратуре ты проектируешь такие системы с нуля — ML-пайплайны, бэкенд-сервисы, всю инфраструктуру вокруг моделей. Когда сам через это проходишь, начинаешь понимать, почему на работе всё устроено так, а не иначе.

Чем эта программа отличается от других. Курсы построены вокруг реальных проблем бигтеха. Как спроектировать систему, которой будут пользоваться тысячи разработчиков? Как сделать так, чтобы ML-сервис держал нагрузку на 50 млн пользователей? Как не изобретать велосипеды, а встраиваться в существующую инфраструктуру?

Понимание сильно помогает на работе. Ты перестаёшь строить игрушечные пет-проекты и думать категорией «локально работает». Теперь начинаешь проектировать системы продакшн-уровня, в которых сразу учитываешь, как это будет жить в проде.

🎁 Бонус. Помимо работы, я много занимаюсь наукой, и здесь это очень ценят, а ещё в Вышке сильные научруки из AIRI. Я нашёл себе руководителя, написал статью по SOTA-токенизации для арабского языка, и её приняли на AINL.

Как совмещаю с работой. Пары вечером, часть онлайн, а домашки делаю в выходные. Нагрузка ощутимая, но мне с моим опытом совмещения ШАДа, бакалавриата и работы — ощущается лайтово 😇.

Удобно, что теорию с пар можно сразу проверить на рабочих задачах: что-то разобрали, через неделю пробую у себя в проекте.
Кому ещё подойдёт. Тому, кто хочет понимать, как устроены большие ML-системы изнутри. Если умеешь обучать модели, но не до конца понимаешь, как всё это масштабировать в продакшн-решения — стоит поступать.

14 апреля — день открытых дверей онлайн. Почитайте подробности на странице магистратуры
🔥119❤‍🔥6👍2😁2😍2💅2
Свежие новости с конференции 😎

Привет, с вами Даниил Максимов, и вчера я в первый раз в жизни выступал на конференции! Это была DataFusion. Рассказал, как мы создавали AI-ассистента для продавцов.

🚀 Проект прошёл путь от идеи до запуска PoC всего за 2,5 месяца. В докладе объяснил, зачем вообще нужен такой ассистент, какие технологии мы использовали, с какими проблемами столкнулись и как их решали.

Надеюсь, выступление было полезным для инженеров из других команд, которые смогут применить наши подходы и выводы при разработке своих решений.

Сама организация конференции была на высшем уровне. Меня приятно удивило, как встречают спикеров: на входе выдают подарок, сопровождают в отдельное помещение с фуршетом.  Чувствуется внимание к деталям и забота об участниках 🤗

Расскажите в комментариях, что думаете об этой конференции, если приходили поучаствовать или послушать.

А вы когда-нибудь выступали с докладом?

😎 — я эксперт в выступлениях
💔 — нет и не хочу!
👍 — бывало
🙏 — нет, а хотел бы
13👍11🙏7😎5💔3
Поговорим о многозадачности

Привет! Меня зовут Ильшат Динеев, я DS-стажёр в команде вертикального ранжирования. Разбирался в многозадачном обучении моделей и собрал обзор статей, в которых описано развитие этого направления.

Классический подход в обучении — одна цель для модели. Но пользовательское поведение многогранно: клики, покупки, время на странице, лайки. Multi-task learning обучает модель сразу для нескольких целей, причём они будут усиливать друг друга за счёт общих представлений.

Как правильно шарить представления

Shared-Bottom (Caruana, 1997) — начало всего. Модель состоит из общей части и отдельных голов для каждой задачи. Иногда задачи конфликтуют, из-за чего общие слои не могут угодить всем. Этот компромисс позже назовут negative transfer.

MMoE (Google, KDD 2018) — вместо одного общего слоя — пул экспертных. Каждая задача получает свой gating network, который решает, каких экспертов слушать. Коррелирующие задачи используют одинаковых экспертов, конфликтующие — разных.

PLE (Tencent, RecSys 2020, Best Paper) — диагностировали seesaw phenomenon: в MMoE улучшение одной задачи часто просаживает другую. Решение проблемы — явно разделить экспертов на shared и task-specific + progressive routing на каждом уровне сети. Прод: +2.23% view-count, +1.84% watch time.

Как бороться с bias и моделировать воронку

ESMM (Alibaba, SIGIR 2018) — переформулировка задачи вместо архитектурного подхода. CVR обучается только на кликнутых примерах (sample selection bias), где мало данных. Решение проблемы — моделируем воронку impression → click → conversion как pCTCVR = pCTR × pCVR, обучаем на всём пространстве показов. Прод: +2.18% AUC на CVR.

YouTube Multi-task Ranking (Google, RecSys 2019) — первый публичный кейс MMoE в масштабе YouTube. Описаны конфликтующие цели: клики и время просмотра против лайков и рейтингов. Например, кликбейт — кликов много, а удовлетворения от контента нет. Дополнительная shallow tower учитывает зависимость от позиции. На инференсе её отключают.

Что делать, если много разных поведений

DMT (JD.com, CIKM 2020) — задачи определяются не только целями, но и типами поведения. Разные поведенческие последовательности моделируют отдельными трансформерами, затем комбинируют через MMoE + unbiased learning. Прод: +4.5% CTR, +4.6% CVR, +8.0% GMV.

Все работы решают одну проблему: как дать задачам шарить только то, что полезно.

Обученная multi-task модель выдаёт несколько скоров: вероятность клика, покупки, ожидаемое время на странице. При этом сортировать выдачу нужно по одному числу. Как собрать один ранк из нескольких предсказаний — отдельная задача, про которую напишу в следующий раз.
🔥187👍7🕊1🌚1💊1
Пет-проекты решают разные задачи: изучить что-то новое, полечить свою боль, ради кеков и лулзов или просто «потому что могу». Мы в Авито тоже не без греха и в свободное время берёмся за что-то этакое.

Например, Марк, DS-инженер в команде LLM пишет статьи. Решил автоматизировать эту задачу с помощью агентов. Миша делает ИИ для настолок, а я упрощаю себе поиск по подкастам. Расскажем подробнее о наших проектах в карточках.

Публичный PoC Марка, жду PR с улучшениями!

Расскажите в комментариях о своих пет-проектах ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍118🔥6