Чем занимаются DL-инженеры в командах Search Recall и Deep Personalization в Авито?
В карточках пройдём путь от генерации идей до real-time-инференса на GPU-кластерах, который помогает миллионам пользователей быстрее находить подходящие товары, а продавцам — своих покупателей.
Полезные материалы:
📹 Доклад про первый опыт внедрения двухбашенных трансформеров в рекомендации
🚗 Проект LLM-автоописаний объявлений (Search Recall × LLM)
🤟 Матрица компетенций DS-инженеров Авито
Открытые вакансии в наши команды:
Search Recall
Deep Personalization SnR
Deep Personalization MNZ
В карточках пройдём путь от генерации идей до real-time-инференса на GPU-кластерах, который помогает миллионам пользователей быстрее находить подходящие товары, а продавцам — своих покупателей.
Полезные материалы:
📹 Доклад про первый опыт внедрения двухбашенных трансформеров в рекомендации
🚗 Проект LLM-автоописаний объявлений (Search Recall × LLM)
🤟 Матрица компетенций DS-инженеров Авито
Открытые вакансии в наши команды:
Search Recall
Deep Personalization SnR
Deep Personalization MNZ
🔥14❤7👍5🦄1
Бывало ли у вас такое, что вы начинаете погружаться в какую-то тему и покупаете Книгу. Потом ещё три. А через год полка уже начинает прогибаться? У меня так случилось с System Design. В карточках немного расскажу, что думаю о трёх книгах:
🟢 с какой начать,
🟢 в чём отличия,
🟢 какая эффектнее смотрится на полке плюсы и минусы.
Не утверждаю, что всё обязательно к прочтению — сегодня полно статей, лекций и курсов по System Design. Я уже купил несколько книг по System Design — не то чтобы всё это было категорически необходимо, но если уж начал собирать коллекцию, то к делу надо подходить серьёзно (с).
Ссылки на книги для желающих:
System Design. Подготовка к сложному интервью
System Design. Машинное обучение. Подготовка к сложному интервью
Designing Machine Learning Systems: An Iterative Process for Production-Ready Applications
А какие книги порекомендуете вы? Напишите в комментариях⬇️
Не утверждаю, что всё обязательно к прочтению — сегодня полно статей, лекций и курсов по System Design. Я уже купил несколько книг по System Design — не то чтобы всё это было категорически необходимо, но если уж начал собирать коллекцию, то к делу надо подходить серьёзно (с).
Ссылки на книги для желающих:
System Design. Подготовка к сложному интервью
System Design. Машинное обучение. Подготовка к сложному интервью
Designing Machine Learning Systems: An Iterative Process for Production-Ready Applications
А какие книги порекомендуете вы? Напишите в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥7❤5
Завершаем цикл про собеседования и сегодня рассказываем про ML System Design
На предыдущих этапах мы поговорили о теории по Питону и ML, но в реальности работа редко формулируется в формате теоретической задачи. Поэтому на ML System Design проверяем, как кандидат переводит кейсы реальной жизни на язык ML.
Обычно MLSD состоит из следующих пунктов:
🔵 Описание кейса
🔵 Польза для бизнеса
🔵 Формализация задачи
🔵 ML-модель
🔵 Выкатка в прод
Некоторые команды упирают на отдельные части MLSD, что-то убирают или добавляют. Например, в монетизации есть значимый кусок математической постановки, без которой разговаривать про ML сложно.
Описание кейса и польза для бизнеса. Сначала интервьюер озвучивает кейс, суть которого зависит от команды. Мы предлагаем задачу из монетизации, есть варианты от модерации, поиска и других команд.
Иногда это ставит кандидата в тупик, если прежде он не решал такие задачи. Это не страшно. Я видела, как опытные специалисты проходят собеседование хуже, чем люди без опыта, потому что пытаются свести задачу к той, которую уже видели. Это может мешать на следующих этапах.
Дальше рассказ продолжает кандидат, а собеседующий задаёт дополнительные и наводящие вопросы.
Формализация задачи. Мы смотрим, как DS справляется с поставленной задачей: зачем вообще нужно её решать, на какие бизнес-метрики будет ориентироваться? Этап отличает MLSD от ML-теории.
ML-модель и выкатка в прод. Обычно на этом этапе уже выяснили, какую задачу решаем. Поэтому можно освежить знания про ML и подумать вот о чём:
🔵 Какие нужны данные?
🔵 Какую модель хотим использовать — катбуст или нейронку? Почему?
🔵 Какой для задачи нужен лосс: регрессия или классификация?
🔵 На какие метрики стоит посмотреть?
🔵 Как модель будет работать в проде?
🔵 На что будем смотреть, чтобы выкатить? А если выкатим?
Ответы зависят от исходной задачи и условий. Не нужно бояться спрашивать, какие данные есть, сколько надо ресурсов, где будет крутиться модель и сколько будет пользователей. Но будьте готовы, что могут попросить рассмотреть разные случаи 😅
Как подготовится к ML System Design
1️⃣ Посмотреть видео с собеседованием на YouTube или ВК
2️⃣ Посмотреть конкретные кейсы в открытом доступе.
3️⃣ Подготовить доску, которую можно просматривать вместе с собеседующим. Будете делать на ней заметки и рисунки. Это очень упрощает жизнь, потому что помогает соблюдать структуру. Я использую excalidraw.com, но вы можете выбрать любой удобный инструмент.
А вы уже проходили ML System Design? Напишите в комментариях, какие материалы для подготовки вы используете⬇️
На предыдущих этапах мы поговорили о теории по Питону и ML, но в реальности работа редко формулируется в формате теоретической задачи. Поэтому на ML System Design проверяем, как кандидат переводит кейсы реальной жизни на язык ML.
Обычно MLSD состоит из следующих пунктов:
Некоторые команды упирают на отдельные части MLSD, что-то убирают или добавляют. Например, в монетизации есть значимый кусок математической постановки, без которой разговаривать про ML сложно.
Описание кейса и польза для бизнеса. Сначала интервьюер озвучивает кейс, суть которого зависит от команды. Мы предлагаем задачу из монетизации, есть варианты от модерации, поиска и других команд.
Иногда это ставит кандидата в тупик, если прежде он не решал такие задачи. Это не страшно. Я видела, как опытные специалисты проходят собеседование хуже, чем люди без опыта, потому что пытаются свести задачу к той, которую уже видели. Это может мешать на следующих этапах.
Дальше рассказ продолжает кандидат, а собеседующий задаёт дополнительные и наводящие вопросы.
Формализация задачи. Мы смотрим, как DS справляется с поставленной задачей: зачем вообще нужно её решать, на какие бизнес-метрики будет ориентироваться? Этап отличает MLSD от ML-теории.
ML-модель и выкатка в прод. Обычно на этом этапе уже выяснили, какую задачу решаем. Поэтому можно освежить знания про ML и подумать вот о чём:
Ответы зависят от исходной задачи и условий. Не нужно бояться спрашивать, какие данные есть, сколько надо ресурсов, где будет крутиться модель и сколько будет пользователей. Но будьте готовы, что могут попросить рассмотреть разные случаи 😅
Как подготовится к ML System Design
А вы уже проходили ML System Design? Напишите в комментариях, какие материалы для подготовки вы используете
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤6👍6
Всё ещё сканируем инфополе без агентов для разбора новостей в мире ML. Всем привет, на связи Данила Бочарников, DS-инженер команды поиска Авито.
🧠 Гонка переходит в физический мир
OpenAI, Anthropic, Google и другие гиганты продолжают бороться за первенство в цифровом мире LLM, но будущее ИИ не только там.
В Мюнхене открыли крупнейший в Европе полигон для обучения роботов. Их главная цель — связать симуляцию и реальность. Узнать детали и посмотреть видео
🎾 ИИ в большом теннисе
Когда-то мы удивлялись, что ИИ обыграл человека в шахматы. Теперь пришёл черёд шахмат на большой скорости. Так называют теннис. Это один из самых сложных видов спорта с точки зрения координации. Galbot Robotics выложила видео и код робота, который пытается играть в теннис.
Пока получается неуклюже, но мяч он хоть как-то отбивает. Ровно так же «неуклюже» когда-то разговаривали первые болталки. Посмотрим, какая будет скорость прогресса здесь.
❓ Вопрос на подумать: когда роботы станут настоящим хайпом, как сейчас LLM?
🔥 — Верю, что первые ласточки появятся через пару лет
🤔 — Думаю, горизонт 5–10 лет, не раньше
👎 — До этого ещё жить и жить, минимум 15 лет
Пишите свои варианты в комментариях! Может, у вас уже дома пылесос бунтует? 😁
🧠 Гонка переходит в физический мир
OpenAI, Anthropic, Google и другие гиганты продолжают бороться за первенство в цифровом мире LLM, но будущее ИИ не только там.
В Мюнхене открыли крупнейший в Европе полигон для обучения роботов. Их главная цель — связать симуляцию и реальность. Узнать детали и посмотреть видео
🎾 ИИ в большом теннисе
Когда-то мы удивлялись, что ИИ обыграл человека в шахматы. Теперь пришёл черёд шахмат на большой скорости. Так называют теннис. Это один из самых сложных видов спорта с точки зрения координации. Galbot Robotics выложила видео и код робота, который пытается играть в теннис.
Пока получается неуклюже, но мяч он хоть как-то отбивает. Ровно так же «неуклюже» когда-то разговаривали первые болталки. Посмотрим, какая будет скорость прогресса здесь.
❓ Вопрос на подумать: когда роботы станут настоящим хайпом, как сейчас LLM?
🔥 — Верю, что первые ласточки появятся через пару лет
🤔 — Думаю, горизонт 5–10 лет, не раньше
👎 — До этого ещё жить и жить, минимум 15 лет
Пишите свои варианты в комментариях! Может, у вас уже дома пылесос бунтует? 😁
🔥12🤔11❤3
Итоги конкурса Avito Data Quest! 🕹️
Проект завершён, а результаты впечатляют: 5427 человек решили пройти игру (вау), но только 680 смогли дать ответы на все вопросы. Коллеги — наше уважение 💪
Получили отличные решения мини-кейсов, некоторые подходы удивили и порадовали детальной проработкой. Спасибо всем участникам 🤗
5 игроков, которые набрали наибольшее количество баллов
Илья — @kom...i
Илья — @bra...m
Пара Doc's — @tg_...2
Александр — @jes...l
Петр — @erm...k
🥳 Ребята, поздравляем! Напишем вам в понедельник-вторник, чтобы договориться о вручении призов. Пара Doc's, напиши, пожалуйста, как с тобой связаться, чтобы доставить приз.
С остальными не прощаемся — мы уже продумываем новые активности.
Ждёте ML Cup?
Пока с вас реакция про Avito Data Quest, и до скорых встреч!
😎 — участвовал, всё чётко
👾 — Марио по офису крутой
👍 — хочу ещё такие игры
Проект завершён, а результаты впечатляют: 5427 человек решили пройти игру (вау), но только 680 смогли дать ответы на все вопросы. Коллеги — наше уважение 💪
Получили отличные решения мини-кейсов, некоторые подходы удивили и порадовали детальной проработкой. Спасибо всем участникам 🤗
5 игроков, которые набрали наибольшее количество баллов
Илья — @kom...i
Илья — @bra...m
Пара Doc's — @tg_...2
Александр — @jes...l
Петр — @erm...k
🥳 Ребята, поздравляем! Напишем вам в понедельник-вторник, чтобы договориться о вручении призов. Пара Doc's, напиши, пожалуйста, как с тобой связаться, чтобы доставить приз.
С остальными не прощаемся — мы уже продумываем новые активности.
Пока с вас реакция про Avito Data Quest, и до скорых встреч!
😎 — участвовал, всё чётко
👾 — Марио по офису крутой
👍 — хочу ещё такие игры
👍9👾6😎5☃2❤1
Помните, мы рассказывали, что Андрей Венжега формирует повестку на С-level-кемпе SnowBase? Кемп закончился, а впечатления остались. Поэтому мы собрали свежие отзывы и добавили к ним фотографий, чтобы вы тоже узнали, что происходило эти три дня!
Кэмп выдался очень насыщенным, а что понравилось больше всего, читайте в карточках⬆️
Кэмп выдался очень насыщенным, а что понравилось больше всего, читайте в карточках
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22🔥15👍7👏3⚡2🆒1