Завершаем цикл про собеседования и сегодня рассказываем про ML System Design
На предыдущих этапах мы поговорили о теории по Питону и ML, но в реальности работа редко формулируется в формате теоретической задачи. Поэтому на ML System Design проверяем, как кандидат переводит кейсы реальной жизни на язык ML.
Обычно MLSD состоит из следующих пунктов:
🔵 Описание кейса
🔵 Польза для бизнеса
🔵 Формализация задачи
🔵 ML-модель
🔵 Выкатка в прод
Некоторые команды упирают на отдельные части MLSD, что-то убирают или добавляют. Например, в монетизации есть значимый кусок математической постановки, без которой разговаривать про ML сложно.
Описание кейса и польза для бизнеса. Сначала интервьюер озвучивает кейс, суть которого зависит от команды. Мы предлагаем задачу из монетизации, есть варианты от модерации, поиска и других команд.
Иногда это ставит кандидата в тупик, если прежде он не решал такие задачи. Это не страшно. Я видела, как опытные специалисты проходят собеседование хуже, чем люди без опыта, потому что пытаются свести задачу к той, которую уже видели. Это может мешать на следующих этапах.
Дальше рассказ продолжает кандидат, а собеседующий задаёт дополнительные и наводящие вопросы.
Формализация задачи. Мы смотрим, как DS справляется с поставленной задачей: зачем вообще нужно её решать, на какие бизнес-метрики будет ориентироваться? Этап отличает MLSD от ML-теории.
ML-модель и выкатка в прод. Обычно на этом этапе уже выяснили, какую задачу решаем. Поэтому можно освежить знания про ML и подумать вот о чём:
🔵 Какие нужны данные?
🔵 Какую модель хотим использовать — катбуст или нейронку? Почему?
🔵 Какой для задачи нужен лосс: регрессия или классификация?
🔵 На какие метрики стоит посмотреть?
🔵 Как модель будет работать в проде?
🔵 На что будем смотреть, чтобы выкатить? А если выкатим?
Ответы зависят от исходной задачи и условий. Не нужно бояться спрашивать, какие данные есть, сколько надо ресурсов, где будет крутиться модель и сколько будет пользователей. Но будьте готовы, что могут попросить рассмотреть разные случаи 😅
Как подготовится к ML System Design
1️⃣ Посмотреть видео с собеседованием на YouTube или ВК
2️⃣ Посмотреть конкретные кейсы в открытом доступе.
3️⃣ Подготовить доску, которую можно просматривать вместе с собеседующим. Будете делать на ней заметки и рисунки. Это очень упрощает жизнь, потому что помогает соблюдать структуру. Я использую excalidraw.com, но вы можете выбрать любой удобный инструмент.
А вы уже проходили ML System Design? Напишите в комментариях, какие материалы для подготовки вы используете⬇️
На предыдущих этапах мы поговорили о теории по Питону и ML, но в реальности работа редко формулируется в формате теоретической задачи. Поэтому на ML System Design проверяем, как кандидат переводит кейсы реальной жизни на язык ML.
Обычно MLSD состоит из следующих пунктов:
Некоторые команды упирают на отдельные части MLSD, что-то убирают или добавляют. Например, в монетизации есть значимый кусок математической постановки, без которой разговаривать про ML сложно.
Описание кейса и польза для бизнеса. Сначала интервьюер озвучивает кейс, суть которого зависит от команды. Мы предлагаем задачу из монетизации, есть варианты от модерации, поиска и других команд.
Иногда это ставит кандидата в тупик, если прежде он не решал такие задачи. Это не страшно. Я видела, как опытные специалисты проходят собеседование хуже, чем люди без опыта, потому что пытаются свести задачу к той, которую уже видели. Это может мешать на следующих этапах.
Дальше рассказ продолжает кандидат, а собеседующий задаёт дополнительные и наводящие вопросы.
Формализация задачи. Мы смотрим, как DS справляется с поставленной задачей: зачем вообще нужно её решать, на какие бизнес-метрики будет ориентироваться? Этап отличает MLSD от ML-теории.
ML-модель и выкатка в прод. Обычно на этом этапе уже выяснили, какую задачу решаем. Поэтому можно освежить знания про ML и подумать вот о чём:
Ответы зависят от исходной задачи и условий. Не нужно бояться спрашивать, какие данные есть, сколько надо ресурсов, где будет крутиться модель и сколько будет пользователей. Но будьте готовы, что могут попросить рассмотреть разные случаи 😅
Как подготовится к ML System Design
А вы уже проходили ML System Design? Напишите в комментариях, какие материалы для подготовки вы используете
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤6👍6
Всё ещё сканируем инфополе без агентов для разбора новостей в мире ML. Всем привет, на связи Данила Бочарников, DS-инженер команды поиска Авито.
🧠 Гонка переходит в физический мир
OpenAI, Anthropic, Google и другие гиганты продолжают бороться за первенство в цифровом мире LLM, но будущее ИИ не только там.
В Мюнхене открыли крупнейший в Европе полигон для обучения роботов. Их главная цель — связать симуляцию и реальность. Узнать детали и посмотреть видео
🎾 ИИ в большом теннисе
Когда-то мы удивлялись, что ИИ обыграл человека в шахматы. Теперь пришёл черёд шахмат на большой скорости. Так называют теннис. Это один из самых сложных видов спорта с точки зрения координации. Galbot Robotics выложила видео и код робота, который пытается играть в теннис.
Пока получается неуклюже, но мяч он хоть как-то отбивает. Ровно так же «неуклюже» когда-то разговаривали первые болталки. Посмотрим, какая будет скорость прогресса здесь.
❓ Вопрос на подумать: когда роботы станут настоящим хайпом, как сейчас LLM?
🔥 — Верю, что первые ласточки появятся через пару лет
🤔 — Думаю, горизонт 5–10 лет, не раньше
👎 — До этого ещё жить и жить, минимум 15 лет
Пишите свои варианты в комментариях! Может, у вас уже дома пылесос бунтует? 😁
🧠 Гонка переходит в физический мир
OpenAI, Anthropic, Google и другие гиганты продолжают бороться за первенство в цифровом мире LLM, но будущее ИИ не только там.
В Мюнхене открыли крупнейший в Европе полигон для обучения роботов. Их главная цель — связать симуляцию и реальность. Узнать детали и посмотреть видео
🎾 ИИ в большом теннисе
Когда-то мы удивлялись, что ИИ обыграл человека в шахматы. Теперь пришёл черёд шахмат на большой скорости. Так называют теннис. Это один из самых сложных видов спорта с точки зрения координации. Galbot Robotics выложила видео и код робота, который пытается играть в теннис.
Пока получается неуклюже, но мяч он хоть как-то отбивает. Ровно так же «неуклюже» когда-то разговаривали первые болталки. Посмотрим, какая будет скорость прогресса здесь.
❓ Вопрос на подумать: когда роботы станут настоящим хайпом, как сейчас LLM?
🔥 — Верю, что первые ласточки появятся через пару лет
🤔 — Думаю, горизонт 5–10 лет, не раньше
👎 — До этого ещё жить и жить, минимум 15 лет
Пишите свои варианты в комментариях! Может, у вас уже дома пылесос бунтует? 😁
🔥12🤔11❤3
Итоги конкурса Avito Data Quest! 🕹️
Проект завершён, а результаты впечатляют: 5427 человек решили пройти игру (вау), но только 680 смогли дать ответы на все вопросы. Коллеги — наше уважение 💪
Получили отличные решения мини-кейсов, некоторые подходы удивили и порадовали детальной проработкой. Спасибо всем участникам 🤗
5 игроков, которые набрали наибольшее количество баллов
Илья — @kom...i
Илья — @bra...m
Пара Doc's — @tg_...2
Александр — @jes...l
Петр — @erm...k
🥳 Ребята, поздравляем! Напишем вам в понедельник-вторник, чтобы договориться о вручении призов. Пара Doc's, напиши, пожалуйста, как с тобой связаться, чтобы доставить приз.
С остальными не прощаемся — мы уже продумываем новые активности.
Ждёте ML Cup?
Пока с вас реакция про Avito Data Quest, и до скорых встреч!
😎 — участвовал, всё чётко
👾 — Марио по офису крутой
👍 — хочу ещё такие игры
Проект завершён, а результаты впечатляют: 5427 человек решили пройти игру (вау), но только 680 смогли дать ответы на все вопросы. Коллеги — наше уважение 💪
Получили отличные решения мини-кейсов, некоторые подходы удивили и порадовали детальной проработкой. Спасибо всем участникам 🤗
5 игроков, которые набрали наибольшее количество баллов
Илья — @kom...i
Илья — @bra...m
Пара Doc's — @tg_...2
Александр — @jes...l
Петр — @erm...k
🥳 Ребята, поздравляем! Напишем вам в понедельник-вторник, чтобы договориться о вручении призов. Пара Doc's, напиши, пожалуйста, как с тобой связаться, чтобы доставить приз.
С остальными не прощаемся — мы уже продумываем новые активности.
Пока с вас реакция про Avito Data Quest, и до скорых встреч!
😎 — участвовал, всё чётко
👾 — Марио по офису крутой
👍 — хочу ещё такие игры
👍9👾6😎5☃2❤1
Помните, мы рассказывали, что Андрей Венжега формирует повестку на С-level-кемпе SnowBase? Кемп закончился, а впечатления остались. Поэтому мы собрали свежие отзывы и добавили к ним фотографий, чтобы вы тоже узнали, что происходило эти три дня!
Кэмп выдался очень насыщенным, а что понравилось больше всего, читайте в карточках⬆️
Кэмп выдался очень насыщенным, а что понравилось больше всего, читайте в карточках
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22🔥15👍7👏3⚡2🆒1
Мы отобрали конференции, статьи с которых наиболее близки к тому, чем мы занимаемся в команде Monetization Efficiency и готовы ими с вами поделиться.
Верхнеуровнево я делю все конференции на два блоĸа: индустриальные и теоретичесĸие.
Ниже рассмотрим топовые конференции и приведем ссылки на статьи.
Индустриальные
IR (Special Interest Group on Information Retrieval / SIGIR)
📌 Тема: Извлечение информации, поиск и ранжирование.
📎 Ссылĸи: 2026, 2025, 2024
KDD (Knowledge Discovery and Data Mining)
📌 Тема: Области применения интеллектуального анализа данных, аналитики данных, DS, прикладного машинного обучения и искусственного интеллекта. Основное внимание статьям, которые либо решают, либо углубляют понимание проблем, связанных с внедрением DS и технологий искусственного интеллекта в реальных условиях.
📎 Ссылĸи: 2025 (research, applied, datasets), 2024 (applied, research), 2023 (applied, research)
WWW (The Web Conference / The International World Wide Web Conference)
📌 Тема: Понимание современного состояния и эволюции Интернета через призму информатики, вычислительных социальных наук, экономики, политики и других дисциплин.
📎 Ссылĸи: 2026 (research, industry, short), 2025, 2024 (research, industry, short)
WSDM (Web Search and Data Mining)
📌 Темы: Связанные с поиском и интеллектуальным анализом данных.
📎 Ссылĸи: 2026, 2025, 2024
RecSys (Conference on Recommender Systems)
📌 Тема: Новые результаты исследований, системы и методы в области рекомендательных систем.
📎 Ссылĸи: 2025, 2024, 2023
EC (Conference on Economics & Computation)
📌 Тема: Достижения в теории, эмпирических исследованиях и прикладных задачах на стыке экономики и вычислительной техники.
📎 Ссылĸи: 2025, 2024, 2023
Теоретичесĸие
NeurIPS (Conference on Neural Information Processing Systems)
📌 Тема: Обмен результатами исследований в области ИИ и ML.
📎 Ссылĸи: accepted papers
ICML (International Conference on Machine Learning)
📌 Тема: Передовые исследования во всех аспектах ML, применяемого в связанных областях: ИИ, статистика и DS, машинное зрение, вычислительная биология, распознавание речи и робототехника.
📎 Ссылĸи: accepted papers
ICLR (International Conference on Learning Representations)
📌 Тема: Передовые исследования во всех аспектах глубокого обучения, применяемого в областях ИИ, статистики и анализа данных, а также в таких важных областях, как машинное зрение, вычислительная биология, распознавание речи, понимание текста, игры и робототехника.
📎 Ссылĸи: accepted papers
В ĸомментариях рассĸажите про интересные ĸонференции в вашем DS-направлении 😃
Лайк тоже будет кстати 😉
А если поделитесь с друзьями — вообще буду рад 🤝
Верхнеуровнево я делю все конференции на два блоĸа: индустриальные и теоретичесĸие.
Ниже рассмотрим топовые конференции и приведем ссылки на статьи.
Индустриальные
IR (Special Interest Group on Information Retrieval / SIGIR)
📌 Тема: Извлечение информации, поиск и ранжирование.
📎 Ссылĸи: 2026, 2025, 2024
KDD (Knowledge Discovery and Data Mining)
📌 Тема: Области применения интеллектуального анализа данных, аналитики данных, DS, прикладного машинного обучения и искусственного интеллекта. Основное внимание статьям, которые либо решают, либо углубляют понимание проблем, связанных с внедрением DS и технологий искусственного интеллекта в реальных условиях.
📎 Ссылĸи: 2025 (research, applied, datasets), 2024 (applied, research), 2023 (applied, research)
WWW (The Web Conference / The International World Wide Web Conference)
📌 Тема: Понимание современного состояния и эволюции Интернета через призму информатики, вычислительных социальных наук, экономики, политики и других дисциплин.
📎 Ссылĸи: 2026 (research, industry, short), 2025, 2024 (research, industry, short)
WSDM (Web Search and Data Mining)
📌 Темы: Связанные с поиском и интеллектуальным анализом данных.
📎 Ссылĸи: 2026, 2025, 2024
RecSys (Conference on Recommender Systems)
📌 Тема: Новые результаты исследований, системы и методы в области рекомендательных систем.
📎 Ссылĸи: 2025, 2024, 2023
EC (Conference on Economics & Computation)
📌 Тема: Достижения в теории, эмпирических исследованиях и прикладных задачах на стыке экономики и вычислительной техники.
📎 Ссылĸи: 2025, 2024, 2023
Теоретичесĸие
NeurIPS (Conference on Neural Information Processing Systems)
📌 Тема: Обмен результатами исследований в области ИИ и ML.
📎 Ссылĸи: accepted papers
ICML (International Conference on Machine Learning)
📌 Тема: Передовые исследования во всех аспектах ML, применяемого в связанных областях: ИИ, статистика и DS, машинное зрение, вычислительная биология, распознавание речи и робототехника.
📎 Ссылĸи: accepted papers
ICLR (International Conference on Learning Representations)
📌 Тема: Передовые исследования во всех аспектах глубокого обучения, применяемого в областях ИИ, статистики и анализа данных, а также в таких важных областях, как машинное зрение, вычислительная биология, распознавание речи, понимание текста, игры и робототехника.
📎 Ссылĸи: accepted papers
В ĸомментариях рассĸажите про интересные ĸонференции в вашем DS-направлении 😃
Лайк тоже будет кстати 😉
А если поделитесь с друзьями — вообще буду рад 🤝
🔥12❤4👍3
Собрать за 8 часов AI-агента, который заменяет CEO: шутка или нет? 🤔
Всем привет! Давайте знакомиться: меня зовут Владимир Димитров, я работаю в Авито в команде DS Jobs.
Недавно я был ментором на хакатоне SnowBase от South Hub. Попал туда благодаря AITH, за что им большое спасибо!
Что меня зацепило в хакатоне: участникам предложили сделать AI-агента, который сможет заменить CEO компании. Согласитесь, уже звучит достаточно любопытно)
Участники работали в формате вайбкодинга, а основным инструментом был Claude Code. Отдельное удовольствие — наблюдать, как руководители промптили свои хотелки, а потом удивлялись, когда получали рабочий функционал.
И самое интересное: всего за 8 часов участникам удалось собрать рабочий прототип. Не идеальный, не production-ready, но уже такой, который можно показать, потестировать и обсудить предметно.
Хакатон получился очень кайфовым: сильные участники, интересный формат и много живого интереса к AI — не на словах, а на практике.
Мы, кстати, тоже планируем сделать свой однодневный хакатон на Data Fest 2026.
Что скажете? 👇
❤️ — кайф, обязательно приду
👍 — не приду, но звучит интересно
🤔 — напишу мысли в комментариях
Всем привет! Давайте знакомиться: меня зовут Владимир Димитров, я работаю в Авито в команде DS Jobs.
Недавно я был ментором на хакатоне SnowBase от South Hub. Попал туда благодаря AITH, за что им большое спасибо!
Что меня зацепило в хакатоне: участникам предложили сделать AI-агента, который сможет заменить CEO компании. Согласитесь, уже звучит достаточно любопытно)
Участники работали в формате вайбкодинга, а основным инструментом был Claude Code. Отдельное удовольствие — наблюдать, как руководители промптили свои хотелки, а потом удивлялись, когда получали рабочий функционал.
И самое интересное: всего за 8 часов участникам удалось собрать рабочий прототип. Не идеальный, не production-ready, но уже такой, который можно показать, потестировать и обсудить предметно.
Хакатон получился очень кайфовым: сильные участники, интересный формат и много живого интереса к AI — не на словах, а на практике.
Мы, кстати, тоже планируем сделать свой однодневный хакатон на Data Fest 2026.
Что скажете? 👇
❤️ — кайф, обязательно приду
👍 — не приду, но звучит интересно
🤔 — напишу мысли в комментариях
❤19🔥16👍9😐2⚡1🤷♂1
Дайджест вакансий в DS
Собрали несколько карьерных возможностей для специалистов по Data Science — взгляните:
👨🏻💻 Тимлид DS-команды ML-платформы определения параметров объявлений
Это задачи на стыке менеджмента, архитектуры и Data Science в высоконагруженном сервисе. Предстоит развивать и масштабировать ML-платформу, управлять командой из пяти инженеров, отвечать за архитектуру и техническую зрелость сервисов, автоматизировать пайплайны обучения и разметки данных, в том числе с применением LLM.
Откликнуться →
👨🏻💻 Старший Data Scientist в команду Поиска
Вы будете разрабатывать RAG-системы и модели векторного поиска объявлений, выстраивать пайплайны валидации для ассистентного поиска и обеспечивать полный цикл разработки ML-решений, чтобы улучшить опыт покупателей.
Откликнуться →
👨🏻💻 DS инженер в команду Авито Рекламы
Предстоит разрабатывать и улучшать модели предсказания кликов и конверсий, обеспечивать полный цикл внедрения ML в продакшен, проектировать и проводить A/B-эксперименты для кратного роста выручки и повышать качество сервисов на Python.
Откликнуться →
👨🏻💻 Старший Data Scientist в команду Авито Рекламы
Вы будете заниматься разработкой ML-модели для автобидинга и умного распределения рекламных бюджетов, применять методы сквозного и совместного ранжирования рекламной и органической выдачи и проектировать сложные A/B-эксперименты, чтобы обеспечить кратный рост рекламной системы.
Откликнутся →
👨🏻💻 Старший Data Scientist в команду LLM
Будете исследовать и улучшать нашу базовую LLM, адаптируя лучшие open-source модели под русский язык и домен, оптимизировать скорость инференса, разрабатывать платформенные LLM-решения, чтобы повысить качество наших продуктов.
Откликнуться →
👨🏻💻 DS инженер в команду Авито Путешествий
Вакансия от команды DS-экспертов разного профиля (classic ML, uplift modeling, NLP/LLM, CV) из вертикали Недвижимость. Их основные направления: развитие Авито Путешествий, категории «Новостройки» и транзакций в жилой недвижимости, а также автоматизация процессов.
Откликнуться →
Собрали несколько карьерных возможностей для специалистов по Data Science — взгляните:
👨🏻💻 Тимлид DS-команды ML-платформы определения параметров объявлений
Это задачи на стыке менеджмента, архитектуры и Data Science в высоконагруженном сервисе. Предстоит развивать и масштабировать ML-платформу, управлять командой из пяти инженеров, отвечать за архитектуру и техническую зрелость сервисов, автоматизировать пайплайны обучения и разметки данных, в том числе с применением LLM.
Откликнуться →
👨🏻💻 Старший Data Scientist в команду Поиска
Вы будете разрабатывать RAG-системы и модели векторного поиска объявлений, выстраивать пайплайны валидации для ассистентного поиска и обеспечивать полный цикл разработки ML-решений, чтобы улучшить опыт покупателей.
Откликнуться →
👨🏻💻 DS инженер в команду Авито Рекламы
Предстоит разрабатывать и улучшать модели предсказания кликов и конверсий, обеспечивать полный цикл внедрения ML в продакшен, проектировать и проводить A/B-эксперименты для кратного роста выручки и повышать качество сервисов на Python.
Откликнуться →
👨🏻💻 Старший Data Scientist в команду Авито Рекламы
Вы будете заниматься разработкой ML-модели для автобидинга и умного распределения рекламных бюджетов, применять методы сквозного и совместного ранжирования рекламной и органической выдачи и проектировать сложные A/B-эксперименты, чтобы обеспечить кратный рост рекламной системы.
Откликнутся →
👨🏻💻 Старший Data Scientist в команду LLM
Будете исследовать и улучшать нашу базовую LLM, адаптируя лучшие open-source модели под русский язык и домен, оптимизировать скорость инференса, разрабатывать платформенные LLM-решения, чтобы повысить качество наших продуктов.
Откликнуться →
👨🏻💻 DS инженер в команду Авито Путешествий
Вакансия от команды DS-экспертов разного профиля (classic ML, uplift modeling, NLP/LLM, CV) из вертикали Недвижимость. Их основные направления: развитие Авито Путешествий, категории «Новостройки» и транзакций в жилой недвижимости, а также автоматизация процессов.
Откликнуться →
❤15🔥8👍7🦄4❤🔥3
Всем привет! А у нас опять рубрика вопрос месяца!
Сегодня будем разбираться с вопросом: Data Science в бигтехе — это просто модная поддерживающая функция или реальный драйвер бизнеса?
Сегодня будем разбираться с вопросом: Data Science в бигтехе — это просто модная поддерживающая функция или реальный драйвер бизнеса?
❤3👍2
Го учиться масштабировать решения!
Привет! Я Марк, работаю DS-инженером команды LLM в Авито. Год назад я закончил ШАД и, несмотря на то, что уже работал в это время, решил пойти учиться дальше. Многие спрашивают зачем, так что расскажу.
Вышка и Авито в прошлом году запустили магистратуру «Машинное обучение в цифровом продукте». Там 30 бесплатных мест, а преподаватели — практики из Авито. Я попал в первый набор 💪
Зачем мне это понадобилось. В большой компании всё уже настроено: пайплайны крутятся, инфраструктура работает, модели деплоятся. Ты решаешь задачи внутри готовой системы, но слабо представляешь, как и почему она построена именно так. Мне хотелось в этом разобраться.
В магистратуре ты проектируешь такие системы с нуля — ML-пайплайны, бэкенд-сервисы, всю инфраструктуру вокруг моделей. Когда сам через это проходишь, начинаешь понимать, почему на работе всё устроено так, а не иначе.
Чем эта программа отличается от других. Курсы построены вокруг реальных проблем бигтеха. Как спроектировать систему, которой будут пользоваться тысячи разработчиков? Как сделать так, чтобы ML-сервис держал нагрузку на 50 млн пользователей? Как не изобретать велосипеды, а встраиваться в существующую инфраструктуру?
Понимание сильно помогает на работе. Ты перестаёшь строить игрушечные пет-проекты и думать категорией «локально работает». Теперь начинаешь проектировать системы продакшн-уровня, в которых сразу учитываешь, как это будет жить в проде.
🎁 Бонус. Помимо работы, я много занимаюсь наукой, и здесь это очень ценят, а ещё в Вышке сильные научруки из AIRI. Я нашёл себе руководителя, написал статью по SOTA-токенизации для арабского языка, и её приняли на AINL.
Как совмещаю с работой. Пары вечером, часть онлайн, а домашки делаю в выходные. Нагрузка ощутимая, но мне с моим опытом совмещения ШАДа, бакалавриата и работы — ощущается лайтово 😇.
Удобно, что теорию с пар можно сразу проверить на рабочих задачах: что-то разобрали, через неделю пробую у себя в проекте.
Кому ещё подойдёт. Тому, кто хочет понимать, как устроены большие ML-системы изнутри. Если умеешь обучать модели, но не до конца понимаешь, как всё это масштабировать в продакшн-решения — стоит поступать.
14 апреля — день открытых дверей онлайн. Почитайте подробности на странице магистратуры
Привет! Я Марк, работаю DS-инженером команды LLM в Авито. Год назад я закончил ШАД и, несмотря на то, что уже работал в это время, решил пойти учиться дальше. Многие спрашивают зачем, так что расскажу.
Вышка и Авито в прошлом году запустили магистратуру «Машинное обучение в цифровом продукте». Там 30 бесплатных мест, а преподаватели — практики из Авито. Я попал в первый набор 💪
Зачем мне это понадобилось. В большой компании всё уже настроено: пайплайны крутятся, инфраструктура работает, модели деплоятся. Ты решаешь задачи внутри готовой системы, но слабо представляешь, как и почему она построена именно так. Мне хотелось в этом разобраться.
В магистратуре ты проектируешь такие системы с нуля — ML-пайплайны, бэкенд-сервисы, всю инфраструктуру вокруг моделей. Когда сам через это проходишь, начинаешь понимать, почему на работе всё устроено так, а не иначе.
Чем эта программа отличается от других. Курсы построены вокруг реальных проблем бигтеха. Как спроектировать систему, которой будут пользоваться тысячи разработчиков? Как сделать так, чтобы ML-сервис держал нагрузку на 50 млн пользователей? Как не изобретать велосипеды, а встраиваться в существующую инфраструктуру?
Понимание сильно помогает на работе. Ты перестаёшь строить игрушечные пет-проекты и думать категорией «локально работает». Теперь начинаешь проектировать системы продакшн-уровня, в которых сразу учитываешь, как это будет жить в проде.
🎁 Бонус. Помимо работы, я много занимаюсь наукой, и здесь это очень ценят, а ещё в Вышке сильные научруки из AIRI. Я нашёл себе руководителя, написал статью по SOTA-токенизации для арабского языка, и её приняли на AINL.
Как совмещаю с работой. Пары вечером, часть онлайн, а домашки делаю в выходные. Нагрузка ощутимая, но мне с моим опытом совмещения ШАДа, бакалавриата и работы — ощущается лайтово 😇.
Удобно, что теорию с пар можно сразу проверить на рабочих задачах: что-то разобрали, через неделю пробую у себя в проекте.
Кому ещё подойдёт. Тому, кто хочет понимать, как устроены большие ML-системы изнутри. Если умеешь обучать модели, но не до конца понимаешь, как всё это масштабировать в продакшн-решения — стоит поступать.
14 апреля — день открытых дверей онлайн. Почитайте подробности на странице магистратуры
🔥11❤9❤🔥6👍2😁2😍2💅2
Свежие новости с конференции 😎
Привет, с вами Даниил Максимов, и вчера я в первый раз в жизни выступал на конференции! Это была DataFusion. Рассказал, как мы создавали AI-ассистента для продавцов.
🚀 Проект прошёл путь от идеи до запуска PoC всего за 2,5 месяца. В докладе объяснил, зачем вообще нужен такой ассистент, какие технологии мы использовали, с какими проблемами столкнулись и как их решали.
Надеюсь, выступление было полезным для инженеров из других команд, которые смогут применить наши подходы и выводы при разработке своих решений.
Сама организация конференции была на высшем уровне. Меня приятно удивило, как встречают спикеров: на входе выдают подарок, сопровождают в отдельное помещение с фуршетом. Чувствуется внимание к деталям и забота об участниках 🤗
Расскажите в комментариях, что думаете об этой конференции, если приходили поучаствовать или послушать.
А вы когда-нибудь выступали с докладом?
😎 — я эксперт в выступлениях
💔 — нет и не хочу!
👍 — бывало
🙏 — нет, а хотел бы
Привет, с вами Даниил Максимов, и вчера я в первый раз в жизни выступал на конференции! Это была DataFusion. Рассказал, как мы создавали AI-ассистента для продавцов.
🚀 Проект прошёл путь от идеи до запуска PoC всего за 2,5 месяца. В докладе объяснил, зачем вообще нужен такой ассистент, какие технологии мы использовали, с какими проблемами столкнулись и как их решали.
Надеюсь, выступление было полезным для инженеров из других команд, которые смогут применить наши подходы и выводы при разработке своих решений.
Сама организация конференции была на высшем уровне. Меня приятно удивило, как встречают спикеров: на входе выдают подарок, сопровождают в отдельное помещение с фуршетом. Чувствуется внимание к деталям и забота об участниках 🤗
Расскажите в комментариях, что думаете об этой конференции, если приходили поучаствовать или послушать.
А вы когда-нибудь выступали с докладом?
😎 — я эксперт в выступлениях
💔 — нет и не хочу!
👍 — бывало
🙏 — нет, а хотел бы
❤13👍11🙏7😎5💔3
Поговорим о многозадачности
Привет! Меня зовут Ильшат Динеев, я DS-стажёр в команде вертикального ранжирования. Разбирался в многозадачном обучении моделей и собрал обзор статей, в которых описано развитие этого направления.
Классический подход в обучении — одна цель для модели. Но пользовательское поведение многогранно: клики, покупки, время на странице, лайки. Multi-task learning обучает модель сразу для нескольких целей, причём они будут усиливать друг друга за счёт общих представлений.
Как правильно шарить представления
Shared-Bottom (Caruana, 1997) — начало всего. Модель состоит из общей части и отдельных голов для каждой задачи. Иногда задачи конфликтуют, из-за чего общие слои не могут угодить всем. Этот компромисс позже назовут negative transfer.
MMoE (Google, KDD 2018) — вместо одного общего слоя — пул экспертных. Каждая задача получает свой gating network, который решает, каких экспертов слушать. Коррелирующие задачи используют одинаковых экспертов, конфликтующие — разных.
PLE (Tencent, RecSys 2020, Best Paper) — диагностировали seesaw phenomenon: в MMoE улучшение одной задачи часто просаживает другую. Решение проблемы — явно разделить экспертов на shared и task-specific + progressive routing на каждом уровне сети. Прод: +2.23% view-count, +1.84% watch time.
Как бороться с bias и моделировать воронку
ESMM (Alibaba, SIGIR 2018) — переформулировка задачи вместо архитектурного подхода. CVR обучается только на кликнутых примерах (sample selection bias), где мало данных. Решение проблемы — моделируем воронку impression → click → conversion как pCTCVR = pCTR × pCVR, обучаем на всём пространстве показов. Прод: +2.18% AUC на CVR.
YouTube Multi-task Ranking (Google, RecSys 2019) — первый публичный кейс MMoE в масштабе YouTube. Описаны конфликтующие цели: клики и время просмотра против лайков и рейтингов. Например, кликбейт — кликов много, а удовлетворения от контента нет. Дополнительная shallow tower учитывает зависимость от позиции. На инференсе её отключают.
Что делать, если много разных поведений
DMT (JD.com, CIKM 2020) — задачи определяются не только целями, но и типами поведения. Разные поведенческие последовательности моделируют отдельными трансформерами, затем комбинируют через MMoE + unbiased learning. Прод: +4.5% CTR, +4.6% CVR, +8.0% GMV.
Все работы решают одну проблему: как дать задачам шарить только то, что полезно.
Обученная multi-task модель выдаёт несколько скоров: вероятность клика, покупки, ожидаемое время на странице. При этом сортировать выдачу нужно по одному числу. Как собрать один ранк из нескольких предсказаний — отдельная задача, про которую напишу в следующий раз.
Привет! Меня зовут Ильшат Динеев, я DS-стажёр в команде вертикального ранжирования. Разбирался в многозадачном обучении моделей и собрал обзор статей, в которых описано развитие этого направления.
Классический подход в обучении — одна цель для модели. Но пользовательское поведение многогранно: клики, покупки, время на странице, лайки. Multi-task learning обучает модель сразу для нескольких целей, причём они будут усиливать друг друга за счёт общих представлений.
Как правильно шарить представления
Shared-Bottom (Caruana, 1997) — начало всего. Модель состоит из общей части и отдельных голов для каждой задачи. Иногда задачи конфликтуют, из-за чего общие слои не могут угодить всем. Этот компромисс позже назовут negative transfer.
MMoE (Google, KDD 2018) — вместо одного общего слоя — пул экспертных. Каждая задача получает свой gating network, который решает, каких экспертов слушать. Коррелирующие задачи используют одинаковых экспертов, конфликтующие — разных.
PLE (Tencent, RecSys 2020, Best Paper) — диагностировали seesaw phenomenon: в MMoE улучшение одной задачи часто просаживает другую. Решение проблемы — явно разделить экспертов на shared и task-specific + progressive routing на каждом уровне сети. Прод: +2.23% view-count, +1.84% watch time.
Как бороться с bias и моделировать воронку
ESMM (Alibaba, SIGIR 2018) — переформулировка задачи вместо архитектурного подхода. CVR обучается только на кликнутых примерах (sample selection bias), где мало данных. Решение проблемы — моделируем воронку impression → click → conversion как pCTCVR = pCTR × pCVR, обучаем на всём пространстве показов. Прод: +2.18% AUC на CVR.
YouTube Multi-task Ranking (Google, RecSys 2019) — первый публичный кейс MMoE в масштабе YouTube. Описаны конфликтующие цели: клики и время просмотра против лайков и рейтингов. Например, кликбейт — кликов много, а удовлетворения от контента нет. Дополнительная shallow tower учитывает зависимость от позиции. На инференсе её отключают.
Что делать, если много разных поведений
DMT (JD.com, CIKM 2020) — задачи определяются не только целями, но и типами поведения. Разные поведенческие последовательности моделируют отдельными трансформерами, затем комбинируют через MMoE + unbiased learning. Прод: +4.5% CTR, +4.6% CVR, +8.0% GMV.
Все работы решают одну проблему: как дать задачам шарить только то, что полезно.
Обученная multi-task модель выдаёт несколько скоров: вероятность клика, покупки, ожидаемое время на странице. При этом сортировать выдачу нужно по одному числу. Как собрать один ранк из нескольких предсказаний — отдельная задача, про которую напишу в следующий раз.
🔥18❤7👍7🕊1🌚1💊1
Пет-проекты решают разные задачи: изучить что-то новое, полечить свою боль, ради кеков и лулзов или просто «потому что могу». Мы в Авито тоже не без греха и в свободное время берёмся за что-то этакое.
Например, Марк, DS-инженер в команде LLM пишет статьи. Решил автоматизировать эту задачу с помощью агентов. Миша делает ИИ для настолок, а я упрощаю себе поиск по подкастам. Расскажем подробнее о наших проектах в карточках.
Публичный PoC Марка, жду PR с улучшениями!
Расскажите в комментариях о своих пет-проектах⬇️
Например, Марк, DS-инженер в команде LLM пишет статьи. Решил автоматизировать эту задачу с помощью агентов. Миша делает ИИ для настолок, а я упрощаю себе поиск по подкастам. Расскажем подробнее о наших проектах в карточках.
Публичный PoC Марка, жду PR с улучшениями!
Расскажите в комментариях о своих пет-проектах
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤8🔥6