⏰ Через час начинаем эфир о рекомендациях ⏰
Толя Мастрюков, Senior DS Engineer, выйдет на связь и расскажет о рекомендательных системах.
Будет теория, практика и ответы на ваши вопросы — их можно оставить под предыдущим постом.
Ждем всех в 17:00 в этом канале.
Толя Мастрюков, Senior DS Engineer, выйдет на связь и расскажет о рекомендательных системах.
Будет теория, практика и ответы на ваши вопросы — их можно оставить под предыдущим постом.
Ждем всех в 17:00 в этом канале.
👍12
Запись эфира «Введение в рекомендации»
Толя Мастрюков рассказал о теории и практике по двухэтапным рекомендательным системам и разобрал вопросы участников, в том числе по задаче на Avito ML Cup.
Смотреть на YouTube →
Толя Мастрюков рассказал о теории и практике по двухэтапным рекомендательным системам и разобрал вопросы участников, в том числе по задаче на Avito ML Cup.
Смотреть на YouTube →
YouTube
Как подступиться к задаче про рекомендательную систему на Avito ML Cup
13 мая прошел эфир в тг-канале Доска AI объявлений. Рассказали про то, как подступиться к задаче про рекомендательную систему на Avito ML Cup.
Ведущий: Толя Мастрюков, Senior DS Engineer.
Рекомендательные системы только недавно стали набирать популярность…
Ведущий: Толя Мастрюков, Senior DS Engineer.
Рекомендательные системы только недавно стали набирать популярность…
👍7
Всем привет! У микрофона Алина Щукина, DS-инженер из команды Horizontal ML Technologies и по совместительству Lead ML курсов в Академии Аналитиков Авито.
В далёком 2021 я была ученицей первого потока. За 4 года я прошла путь от junior до senior DS, от студентки до руководителя и соавтора ML-курсов.
Сегодня расскажу, как из юных и талантливых ребят мы готовим инженеров на нашем DS-треке. Итак, три столпа, на которых держится этот трек:
1️⃣ Теория из трёх основных частей.
— Фундаментальная база: статистика, SQL, Python и алгоритмы.
— Сердце любого DS — core ML: базовый и продвинутый курсы по машинному обучению. Экзамен по ним проходит в формате mock-собеседования — это настоящая подготовка к интервью.
— Инженерная часть: работа с датасетами, инфраструктура ML и ML System Design.
2️⃣ Практика и ещё раз практика. «Послушал лекцию — сделал тест» — это не наш формат.
Каждое задание — плотная работа с настоящими данными, эксперименты с архитектурами и подходами. Чем больше разных практических задач решено на учёбе, тем легче будет в реальной работе.
3️⃣ Боевая подготовка. Курсовой проект — реальная задача из практики DS-инженеров Авито.
Студент проходит полный цикл DS-разработки: от постановки бизнес-задачи и сбора данных до нагрузочного тестирования обученной модели в проде.
💡 Без менторской поддержки — никуда. Каждого студента ведёт опытный инженер.
Помощь — во всём: анализ кода, mock-собеседования, советы «бывалых» о том, как не выгорать и найти любимую специализацию, когда и в какие компании начинать подаваться — словом, всё, что тревожит ваш ум и душу :)
🚀 Новый набор уже начался. Если хотите не просто делать fit-predict, а разбираться в устройстве моделей под капотом, грамотно анализировать данные, решать прикладные задачи и расти в DS — обратите внимание на Академию ↓↓↓
Пройти отбор в Академию →
В далёком 2021 я была ученицей первого потока. За 4 года я прошла путь от junior до senior DS, от студентки до руководителя и соавтора ML-курсов.
Сегодня расскажу, как из юных и талантливых ребят мы готовим инженеров на нашем DS-треке. Итак, три столпа, на которых держится этот трек:
1️⃣ Теория из трёх основных частей.
— Фундаментальная база: статистика, SQL, Python и алгоритмы.
— Сердце любого DS — core ML: базовый и продвинутый курсы по машинному обучению. Экзамен по ним проходит в формате mock-собеседования — это настоящая подготовка к интервью.
— Инженерная часть: работа с датасетами, инфраструктура ML и ML System Design.
2️⃣ Практика и ещё раз практика. «Послушал лекцию — сделал тест» — это не наш формат.
Каждое задание — плотная работа с настоящими данными, эксперименты с архитектурами и подходами. Чем больше разных практических задач решено на учёбе, тем легче будет в реальной работе.
3️⃣ Боевая подготовка. Курсовой проект — реальная задача из практики DS-инженеров Авито.
Студент проходит полный цикл DS-разработки: от постановки бизнес-задачи и сбора данных до нагрузочного тестирования обученной модели в проде.
💡 Без менторской поддержки — никуда. Каждого студента ведёт опытный инженер.
Помощь — во всём: анализ кода, mock-собеседования, советы «бывалых» о том, как не выгорать и найти любимую специализацию, когда и в какие компании начинать подаваться — словом, всё, что тревожит ваш ум и душу :)
🚀 Новый набор уже начался. Если хотите не просто делать fit-predict, а разбираться в устройстве моделей под капотом, грамотно анализировать данные, решать прикладные задачи и расти в DS — обратите внимание на Академию ↓↓↓
Пройти отбор в Академию →
👍12⚡8✍3🎉2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Наши DS на конференции IML
На видео ребята из DS SWAT, антифрода, монетизации и вертикальных DS команд. Подходите общаться и приходите на доклад Саши Ледовского про ранжирование платных объявлений в 15:30 в Зале 2.
#iml
На видео ребята из DS SWAT, антифрода, монетизации и вертикальных DS команд. Подходите общаться и приходите на доклад Саши Ледовского про ранжирование платных объявлений в 15:30 в Зале 2.
#iml
🔥22🎉6👀5
Зовём в гости на Data Fest 2025: собираемся у нас в офисе в Москве.
Зарегистрироваться →
⌛️ Когда: 31 мая, с 11:00 до 22:30
📍 Где: ул Лесная, 7. БЦ «Белые Сады».
📌 Что в программе. Доклады из секций:
— ML in Marketplace
— Analytical DS
— Advanced LLM
— Соревновательный трек: обсудим Avito ML Cup 2025 и другие челленджи
💬 Помимо докладов будет ламповый нетворкинг, карьерные разговоры и DS-квиз, а вечером — афтепати на веранде!
✨ Встретим лето красиво: с видом, музыкой и общением.
Регистрация уже открыта: переходите по ссылке ниже, жмите «Участвовать» и дождитесь подтверждения.
Будет жарко — и по контенту, и по атмосфере!
Зарегистрироваться →
Зарегистрироваться →
⌛️ Когда: 31 мая, с 11:00 до 22:30
📍 Где: ул Лесная, 7. БЦ «Белые Сады».
📌 Что в программе. Доклады из секций:
— ML in Marketplace
— Analytical DS
— Advanced LLM
— Соревновательный трек: обсудим Avito ML Cup 2025 и другие челленджи
💬 Помимо докладов будет ламповый нетворкинг, карьерные разговоры и DS-квиз, а вечером — афтепати на веранде!
✨ Встретим лето красиво: с видом, музыкой и общением.
Регистрация уже открыта: переходите по ссылке ниже, жмите «Участвовать» и дождитесь подтверждения.
Будет жарко — и по контенту, и по атмосфере!
Зарегистрироваться →
🔥17✍4👍1👀1
Новое на Хабре: как наша LLM помогает продавцам одежды
Бывает так, что частные продавцы оставляют описания товаров пустыми или пишут неинформативные тексты. Из-за этого покупателям не хватает данных, чтобы принять решение, и продажа не случается.
В категории «Одежда, обувь и аксессуары» у продавцов появилось элегантное решение: доверить описание LLM. Она сама составит продающий текст по фото.
В начале мая Сергей Кляхандлер, senior DS-инженер, поделился подробным рассказом про создание этой LLM: откуда взяли данные, какую выбрали архитектуру, как натренировали модель.
Если сами работаете с мультимодальными LLM-моделями, это мастрид.
Читать →
Бывает так, что частные продавцы оставляют описания товаров пустыми или пишут неинформативные тексты. Из-за этого покупателям не хватает данных, чтобы принять решение, и продажа не случается.
В категории «Одежда, обувь и аксессуары» у продавцов появилось элегантное решение: доверить описание LLM. Она сама составит продающий текст по фото.
В начале мая Сергей Кляхандлер, senior DS-инженер, поделился подробным рассказом про создание этой LLM: откуда взяли данные, какую выбрали архитектуру, как натренировали модель.
Если сами работаете с мультимодальными LLM-моделями, это мастрид.
Читать →
🔥11
Всем привет! На связи команда Академии Аналитиков Авито.
Своим DS-треком мы уже немного похвастались в недавнем посте.
Сейчас мы активно набираем новый поток и хотим больше рассказать об Академии. Почему к нам стоит идти? Как попасть? Что мы можем предложить ученикам?
Приглашаем всех на эфир 2 июня в 17:00. Расскажем про обучение, ответим на все ваши вопросы и поможем решиться на подачу заявки.
О чём расскажем
❓ Кто и как может зачислиться в Академию
❓ Какие этапы необходимо пройти перед поступлением
❓ Как организовано обучение
А в конце проведём Q&A-сессию и ответим на вопросы.
Кто будет на встрече
🗣 Дима Кротов — старший аналитик в вертикали Работа
🗣 Миша Пирожков — аналитик в отделе Marketing
🗣 Алина Щукина — старший DS-инженер
🗣 Аня Прокопьева — проджект Академии Аналитиков Авито
🗣 Оля Красовская — старший проджект Академии Аналитиков Авито
📆 Где и когда встречаемся
Эфир будет в канале Коммуналка аналитиков 2 июня в 17:00. Там же можно задать вопросы для Q&A: подписывайтесь и следите за анонсами.
Своим DS-треком мы уже немного похвастались в недавнем посте.
Сейчас мы активно набираем новый поток и хотим больше рассказать об Академии. Почему к нам стоит идти? Как попасть? Что мы можем предложить ученикам?
Приглашаем всех на эфир 2 июня в 17:00. Расскажем про обучение, ответим на все ваши вопросы и поможем решиться на подачу заявки.
О чём расскажем
❓ Кто и как может зачислиться в Академию
❓ Какие этапы необходимо пройти перед поступлением
❓ Как организовано обучение
А в конце проведём Q&A-сессию и ответим на вопросы.
Кто будет на встрече
🗣 Дима Кротов — старший аналитик в вертикали Работа
🗣 Миша Пирожков — аналитик в отделе Marketing
🗣 Алина Щукина — старший DS-инженер
🗣 Аня Прокопьева — проджект Академии Аналитиков Авито
🗣 Оля Красовская — старший проджект Академии Аналитиков Авито
📆 Где и когда встречаемся
Эфир будет в канале Коммуналка аналитиков 2 июня в 17:00. Там же можно задать вопросы для Q&A: подписывайтесь и следите за анонсами.
👍8🤝2😎2👎1
Привет! На связи Виталий Минаев, DS Team Lead в Коммерческом департаменте Авито. Я отвечаю за организацию Data Fest со стороны DS-функции.
✍️ Поделюсь эмоциями с прошлого Data Fest. Это первое мероприятие, которое мы организовывали вместе с командой и в принципе мой первый опыт организации мероприятий такого плана.
📅 У нас были насыщенные 2 месяца подготовки. Мы тогда нацелились сразу на 12 докладов от Авито, которые надо было хорошо подготовить. А ещё на офлайн-день, который надо было грамотно организовать, чтобы всем было максимально комфортно.
Во время подготовки мы несколько раз прогнали каждый доклад, в том числе на DS-митапах, где коллеги из разных DS-направлений задавали вопросы, челленджили докладчиков и помогали советами, как сделать презентации лучше.
А в организации нам помогла очень крутая команда наших devrel'ов, которые сделали всё просто на отлично.
🎯 Результаты Data Fest очень порадовали: на офлайн-день пришли примерно 250 человек и по результатам опроса оценили его на 9+ из 10.
Все остались довольны докладами, общением и атмосферой, которую наша команда смогла создать (да и погода не подкачала, был очень кайфовый теплый летний вечер — приятно вспомнить, смотря на фотки).
💪 Надеемся в этом году выступить ещё сильнее (в этот раз в планах почти 20 докладов от Авито) и воссоздать ту самую классную атмосферу офлайн-дня.
👋 Ждём наших гостей в субботу в московском офисе Авито! Трансляцию можно будет смотреть онлайн — поделимся ссылкой в этом канале.
✍️ Поделюсь эмоциями с прошлого Data Fest. Это первое мероприятие, которое мы организовывали вместе с командой и в принципе мой первый опыт организации мероприятий такого плана.
📅 У нас были насыщенные 2 месяца подготовки. Мы тогда нацелились сразу на 12 докладов от Авито, которые надо было хорошо подготовить. А ещё на офлайн-день, который надо было грамотно организовать, чтобы всем было максимально комфортно.
Во время подготовки мы несколько раз прогнали каждый доклад, в том числе на DS-митапах, где коллеги из разных DS-направлений задавали вопросы, челленджили докладчиков и помогали советами, как сделать презентации лучше.
А в организации нам помогла очень крутая команда наших devrel'ов, которые сделали всё просто на отлично.
🎯 Результаты Data Fest очень порадовали: на офлайн-день пришли примерно 250 человек и по результатам опроса оценили его на 9+ из 10.
Все остались довольны докладами, общением и атмосферой, которую наша команда смогла создать (да и погода не подкачала, был очень кайфовый теплый летний вечер — приятно вспомнить, смотря на фотки).
💪 Надеемся в этом году выступить ещё сильнее (в этот раз в планах почти 20 докладов от Авито) и воссоздать ту самую классную атмосферу офлайн-дня.
👋 Ждём наших гостей в субботу в московском офисе Авито! Трансляцию можно будет смотреть онлайн — поделимся ссылкой в этом канале.
🔥27❤5😍4
Подводим итоги Avito ML Cup 2025 и поздравляем победителей!
⚡️Задача «Поиск дублей»
1 место — Krotovuha (0.34777)
2 место — Mr Yellow (0.33701)
3 место — MISIS Neychev Loss (0.32965)
⭐️ Задача «Персональные рекомендации»
1 место — AmazMe (0.22375)
2 место — Vladimir Bazhenov (0.22147)
3 место — test run (0.22132)
▶️ Уже завтра победители выступят у нас на DataFest
Присоединяйтесь к трансляции, чтобы узнать об их решениях и послушать другие выступления:
Трансляция основного трека →
Трансляция соревновательного трека →
⚡️Задача «Поиск дублей»
1 место — Krotovuha (0.34777)
2 место — Mr Yellow (0.33701)
3 место — MISIS Neychev Loss (0.32965)
⭐️ Задача «Персональные рекомендации»
1 место — AmazMe (0.22375)
2 место — Vladimir Bazhenov (0.22147)
3 место — test run (0.22132)
▶️ Уже завтра победители выступят у нас на DataFest
Присоединяйтесь к трансляции, чтобы узнать об их решениях и послушать другие выступления:
Трансляция основного трека →
Трансляция соревновательного трека →
🔥10🎉4👀3
Привет!☄️
Делимся атмосферой дата феста, который проходит сейчас у нас в офисе❤️
Делимся атмосферой дата феста, который проходит сейчас у нас в офисе
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
Друзья, привет! Это Саша Ледовский, DS Team Lead из монетизации.
Буквально за неделю до начала Data Fest прошла другая очень интересная конференция — IML. Я на ней побывал и даже выступил. В посте делюсь инсайтами и мыслями про три доклада, которые показались наиболее полезными.
👉 Общие впечатления от конфы крайне положительные. Во-первых, была хорошая организация: идеальный тайминг, хорошая съёмка, комфортное количество людей.
Во-вторых, у ребят был довольно жёсткий отбор докладов и подготовка спикеров, поэтому выступления были хорошего качества. Лично я раза 3 созванивался с программным комитетом, показывая улучшенную версию доклада.
✍️ Понравился рассказ про ML-платформу в Т-Банке. Там ребята отработали боли таких придирчивых пользователей, как я.
Например, частая боль, что с юпитером в ML-платформах можно работать только через браузер: VSCode не подключишь, по ssh не зайдешь. По словам создателей платформы, У Т-Банка это решено: можно и по ssh зайти, и свой VSCode подключить, и свой образ с окружением собрать в два клика.
Инсайт для менеджеров: соотношение разработчиков платформы к DS примерно 1 к 20. Мне кажется, это выгодный размен за то, что DS не тратит время на инфру.
✍️ Запомнился доклад Я.Маркета про «дискавери» рекомендации — это те, что связаны не с вашими последними кликами, а, скорее с вашими долгосрочными интересами.
Реализация опиралась на несколько фичей, но это была не глобальная переделка системы, а, скорее, адаптация существующих подходов. Например, за счёт доработки у стандартного кандгена-трансформера, в котором сильно расширили контекст и перевели в оффлайн.
✍️ Ну и, конечно, мощным был доклад про рекомендации в HeadHunter — рассказ про эволюцию системы более чем за 10 лет. Сейчас рекомендации вакансий дают HH большую часть откликов.
Интересная особенность, что их рекомендации — это практически поиск. Я не задумывался об этом ранее, но кандидаты там заполняют резюме и это, по сути, поисковой запрос. Поэтому одна из их ключевых архитектур — контентный DSSM, который обучается на близости резюме и вакансии.
На этом всё. Надеюсь, вам было интересно. Следите за нашим каналом — будет ещё много инсайтов.
Буквально за неделю до начала Data Fest прошла другая очень интересная конференция — IML. Я на ней побывал и даже выступил. В посте делюсь инсайтами и мыслями про три доклада, которые показались наиболее полезными.
👉 Общие впечатления от конфы крайне положительные. Во-первых, была хорошая организация: идеальный тайминг, хорошая съёмка, комфортное количество людей.
Во-вторых, у ребят был довольно жёсткий отбор докладов и подготовка спикеров, поэтому выступления были хорошего качества. Лично я раза 3 созванивался с программным комитетом, показывая улучшенную версию доклада.
✍️ Понравился рассказ про ML-платформу в Т-Банке. Там ребята отработали боли таких придирчивых пользователей, как я.
Например, частая боль, что с юпитером в ML-платформах можно работать только через браузер: VSCode не подключишь, по ssh не зайдешь. По словам создателей платформы, У Т-Банка это решено: можно и по ssh зайти, и свой VSCode подключить, и свой образ с окружением собрать в два клика.
Инсайт для менеджеров: соотношение разработчиков платформы к DS примерно 1 к 20. Мне кажется, это выгодный размен за то, что DS не тратит время на инфру.
✍️ Запомнился доклад Я.Маркета про «дискавери» рекомендации — это те, что связаны не с вашими последними кликами, а, скорее с вашими долгосрочными интересами.
Реализация опиралась на несколько фичей, но это была не глобальная переделка системы, а, скорее, адаптация существующих подходов. Например, за счёт доработки у стандартного кандгена-трансформера, в котором сильно расширили контекст и перевели в оффлайн.
✍️ Ну и, конечно, мощным был доклад про рекомендации в HeadHunter — рассказ про эволюцию системы более чем за 10 лет. Сейчас рекомендации вакансий дают HH большую часть откликов.
Интересная особенность, что их рекомендации — это практически поиск. Я не задумывался об этом ранее, но кандидаты там заполняют резюме и это, по сути, поисковой запрос. Поэтому одна из их ключевых архитектур — контентный DSSM, который обучается на близости резюме и вакансии.
На этом всё. Надеюсь, вам было интересно. Следите за нашим каналом — будет ещё много инсайтов.
👍19❤13
Салют! На связи Даня Седашов, Senior DS-инженер из команды Monetization Efficiency.
Сегодня расскажу, как мы принимаем изменения в ранжировании перед запуском A/B-тестов.
Мы в первую очередь заботимся об опыте пользователей, поэтому выдача должна быть релевантной и разнообразной.
Но наши пользователи — это не только покупатели, но и продавцы, и об их опыте мы тоже хотим заботиться.
Здесь встаёт вопрос распределения внимания покупателей, а ещё многие продавцы пользуются услугами продвижения, — это мы тоже должны учесть.
🧠 Получается, что построение выдачи — задача многокритериальной оптимизации. Предположим, мы придумали новую монетизационную механику, которая повышает эффективность продвижения.
Как внедрение такой механики скажется на разнообразии ленты или её релевантности?
🔢 Для оценки эффектов и настройки параметров мы используем офлайн-приёмку. Схема приёмки следующая. Соберём некоторый репрезентативный пул запросов, далее поднимем 2 версии сервиса рекомендаций: один с нашими изменениями, один — без.
Пошлём каждый запрос в обе версии — мы называем это обстрелом — и сравним контрольные и модифицированные выдачи.
🧐 Как сравнивать выдачи? Для каждого объявления мы знаем набор свойств: от какого продавца, из какой категории, какие у него оценки релевантности, кликабельности, ожидаемой выручки и прочего.
По этим свойствам мы можем составить прокси к любой желаемой метрике выдачи и сравнить две версии ранжирования между собой.
✍️ Разберём на примере. При внедрении новой монетизационной механики хотим понять, в какую сторону поменяется релевантность.
Практически каждое изменение мы проверяем на такой приёмке по большому числу метрик. Также мы используем офлайн-приёмку для подбора параметров выдачи, а ещё такой инструмент оказался очень полезен для дебага.
Сегодня расскажу, как мы принимаем изменения в ранжировании перед запуском A/B-тестов.
Вы когда-нибудь задумывались, какую метрику оптимизирует рекомендательная выдача на Авито? 🤔
Мы в первую очередь заботимся об опыте пользователей, поэтому выдача должна быть релевантной и разнообразной.
Но наши пользователи — это не только покупатели, но и продавцы, и об их опыте мы тоже хотим заботиться.
Здесь встаёт вопрос распределения внимания покупателей, а ещё многие продавцы пользуются услугами продвижения, — это мы тоже должны учесть.
🧠 Получается, что построение выдачи — задача многокритериальной оптимизации. Предположим, мы придумали новую монетизационную механику, которая повышает эффективность продвижения.
Как внедрение такой механики скажется на разнообразии ленты или её релевантности?
🔢 Для оценки эффектов и настройки параметров мы используем офлайн-приёмку. Схема приёмки следующая. Соберём некоторый репрезентативный пул запросов, далее поднимем 2 версии сервиса рекомендаций: один с нашими изменениями, один — без.
Пошлём каждый запрос в обе версии — мы называем это обстрелом — и сравним контрольные и модифицированные выдачи.
🧐 Как сравнивать выдачи? Для каждого объявления мы знаем набор свойств: от какого продавца, из какой категории, какие у него оценки релевантности, кликабельности, ожидаемой выручки и прочего.
По этим свойствам мы можем составить прокси к любой желаемой метрике выдачи и сравнить две версии ранжирования между собой.
✍️ Разберём на примере. При внедрении новой монетизационной механики хотим понять, в какую сторону поменяется релевантность.
Для каждой выдачи считаем сумму по релевантностям отранжированных объявлений, взвешенную на видимость их позиций — эдакий DCG.
↓
Вычисляем, на сколько новые выдачи в среднем отклоняются от контрольных по такой метрике. Например, если разница околонулевая — отлично; в районе −10% — плохой сигнал.
Практически каждое изменение мы проверяем на такой приёмке по большому числу метрик. Также мы используем офлайн-приёмку для подбора параметров выдачи, а ещё такой инструмент оказался очень полезен для дебага.
🔥11👍10⚡5❤1