Если в круговороте рабочих задач и созвонов вы уже не помните, сколько раз на этой неделе слышали будильник, радостно сообщаем, что сегодня пятница 👋
Значит, самое время для поста простого и непринуждённого.
Для всех, кто в мартовском опросе выбрал пункт «немного шуточек не помешает», а также для всех адептов мудрости «не имей 100 рублей, а имей 100 друзей», представляем вам нашу подборку для инвестиций.
Да, инфляция налицо. Но тут мы ни при чём, тем более, что на Авито можно и поторговаться!
❓Кого бы взяли себе? Делитесь в комментариях.
Значит, самое время для поста простого и непринуждённого.
Для всех, кто в мартовском опросе выбрал пункт «немного шуточек не помешает», а также для всех адептов мудрости «не имей 100 рублей, а имей 100 друзей», представляем вам нашу подборку для инвестиций.
Да, инфляция налицо. Но тут мы ни при чём, тем более, что на Авито можно и поторговаться!
❓Кого бы взяли себе? Делитесь в комментариях.
😁23❤5🤝1
Всем привет! На связи Илья Петряшин, DS-инженер из команды Horizontal ML Technologies. Сегодня расскажу, как мы делаем главную продуктовую метрику Авито.
Чтобы не углубляться в детали, сразу обозначим: наибольшую ценность для Авито представляет сделка между продавцом и покупателем. Поэтому в метрике мы хотим считать сделки — или что-то максимально на них похожее.
Большинство сделок заключается напрямую — в чате, по телефону или при личной встрече. Это создаёт проблему: нет нативного способа определить наличие сделки.
🧠 Отсюда и формулируется задача: научиться по косвенным признакам в поведении пользователей определять, состоялась ли у них сделка.
❓ Первый вопрос: можно ли вообще таким образом зафиксировать наличие сделки? На практике оказывается, что чаще можно определить не сам её факт, а то, насколько люди близки к ней. Значит, в метрике мы будем считать не сделки, а некоторые целевые действия, которые с ними коррелируют.
❓ Следующий вопрос: что считать таким действием? Однозначного ответа нет. Вместо этого можно сформулировать, каким должно быть хорошее описание целевого действия. Оно должно:
— соответствовать бизнес-пониманию
— быть простым
— и единообразным для разных частей Авито
Чтобы получить такое описание, нужно привлекать всех заинтересованных: бизнес, аналитиков и команду, которая делает метрику.
Но если попытаться учесть ожидания всех сторон, появляются противоречия: описание должно охватывать все бизнес-сценарии, при этом оставаться простым и консистентным. Это сложно.
💡 Здесь помогает data-driven подход. Мы не придумываем описание «в вакууме», а калибруем его на реальных данных.
Участники процесса делают разметку пользовательских паттернов поведения, затем мы анализируем расхождения, находим систематические ошибки и уточняем описание. Повторяем этот цикл, пока не получим согласованную формулировку.
✅ В итоге получаем откалиброванное описание целевого действия, которое устраивает всех. А дальше — дело техники: учим ML-модели, которые предсказывают наличие целевого действия в поведении. А уже из этого, с помощью нехитрой аналитики, строим метрику.
Профит! Метрика готова — можно использовать её для А/В-тестов, постановки целей или оценки бизнес-эффектов.
Чтобы не углубляться в детали, сразу обозначим: наибольшую ценность для Авито представляет сделка между продавцом и покупателем. Поэтому в метрике мы хотим считать сделки — или что-то максимально на них похожее.
Большинство сделок заключается напрямую — в чате, по телефону или при личной встрече. Это создаёт проблему: нет нативного способа определить наличие сделки.
🧠 Отсюда и формулируется задача: научиться по косвенным признакам в поведении пользователей определять, состоялась ли у них сделка.
❓ Первый вопрос: можно ли вообще таким образом зафиксировать наличие сделки? На практике оказывается, что чаще можно определить не сам её факт, а то, насколько люди близки к ней. Значит, в метрике мы будем считать не сделки, а некоторые целевые действия, которые с ними коррелируют.
❓ Следующий вопрос: что считать таким действием? Однозначного ответа нет. Вместо этого можно сформулировать, каким должно быть хорошее описание целевого действия. Оно должно:
— соответствовать бизнес-пониманию
— быть простым
— и единообразным для разных частей Авито
Чтобы получить такое описание, нужно привлекать всех заинтересованных: бизнес, аналитиков и команду, которая делает метрику.
Но если попытаться учесть ожидания всех сторон, появляются противоречия: описание должно охватывать все бизнес-сценарии, при этом оставаться простым и консистентным. Это сложно.
💡 Здесь помогает data-driven подход. Мы не придумываем описание «в вакууме», а калибруем его на реальных данных.
Участники процесса делают разметку пользовательских паттернов поведения, затем мы анализируем расхождения, находим систематические ошибки и уточняем описание. Повторяем этот цикл, пока не получим согласованную формулировку.
✅ В итоге получаем откалиброванное описание целевого действия, которое устраивает всех. А дальше — дело техники: учим ML-модели, которые предсказывают наличие целевого действия в поведении. А уже из этого, с помощью нехитрой аналитики, строим метрику.
Профит! Метрика готова — можно использовать её для А/В-тестов, постановки целей или оценки бизнес-эффектов.
🔥17❤7💯7
Спекулятивный декодинг
Многие слышали, но немногие знают его секреты. Давайте разбираться!
Впочти оригинальной статье авторы предлагают следующую идею:
Использовать огромные модели в каждом случае и тратить тонны ресурсов — это расточительно. Лучше оптимизировать процесс и дать большой (target) модели помощника маленькую черновую (draft) модель.
Как это работает под капотом?
1️⃣ Маленькая модель авторегрессионно генерирует сразу K токенов на основе префикса (в общем, как принято в обществе GPT)
2️⃣ Большая модель за один forward pass проверяет эти токены. Если она находит ошибку, то корректирует её, добавляя правильный («бонусный») токен.
3️⃣ Исправленный батч токенов снова отправляется в маленькую модель, и процесс повторяется.
Очень понятно описали у себя этот процесс ребята из vLLM в блоге.
Но есть важный нюанс!
Спекулятивный декодинг наиболее эффективен только на малых размерах батчей. На больших батчах (или при большом K) производительность упирается уже не в Memory Bound (как при маленьких батчах), а в Compute Bound.
В таком режиме преимущество спекулятивного декодинга практически исчезает. Подробнее об этом в обзорной статье, где разбирают проблемы инференса и их решения.
Но заканчивать посты на грустной ноте — плохая примета! Поэтому, продолжим:
На помощь приходит метод EAGLE
Серия статей: EAGLE-1 → EAGLE-2 → EAGLE-3.
Ключевая идея EAGLE — внедрение в основную модель адаптера, позволяющего генерировать сразу несколько токенов за раз:
👉 Основная модель качественно генерирует начальные токены без адаптера.
👉 Информативные эмбеддинги передаются адаптеру, который строит «дерево возможных токенов», аналогично beam-search.
👉 Полученное дерево затем проверяется одним forward pass основной модели.
Разница между EAGLE-1 и EAGLE-3, как вы, наверное, догадались, это больше, выше, сильнее. Например, в EAGLE-1 адаптер тренировали на почти 70к диалогах, а в EAGLE-3 уже 500к.
Но и тут, видимо, начинает близиться конец, ведь в последней статье авторы отмечают, что добавление новых данных и расширение адаптера уже не сильно растят метрики.
Запасаемся попкорном и следим за развитием событий!
Многие слышали, но немногие знают его секреты. Давайте разбираться!
В
Использовать огромные модели в каждом случае и тратить тонны ресурсов — это расточительно. Лучше оптимизировать процесс и дать большой (target) модели помощника маленькую черновую (draft) модель.
Как это работает под капотом?
1️⃣ Маленькая модель авторегрессионно генерирует сразу K токенов на основе префикса (в общем, как принято в обществе GPT)
2️⃣ Большая модель за один forward pass проверяет эти токены. Если она находит ошибку, то корректирует её, добавляя правильный («бонусный») токен.
3️⃣ Исправленный батч токенов снова отправляется в маленькую модель, и процесс повторяется.
Очень понятно описали у себя этот процесс ребята из vLLM в блоге.
Но есть важный нюанс!
Спекулятивный декодинг наиболее эффективен только на малых размерах батчей. На больших батчах (или при большом K) производительность упирается уже не в Memory Bound (как при маленьких батчах), а в Compute Bound.
В таком режиме преимущество спекулятивного декодинга практически исчезает. Подробнее об этом в обзорной статье, где разбирают проблемы инференса и их решения.
Но заканчивать посты на грустной ноте — плохая примета! Поэтому, продолжим:
На помощь приходит метод EAGLE
Серия статей: EAGLE-1 → EAGLE-2 → EAGLE-3.
Ключевая идея EAGLE — внедрение в основную модель адаптера, позволяющего генерировать сразу несколько токенов за раз:
👉 Основная модель качественно генерирует начальные токены без адаптера.
👉 Информативные эмбеддинги передаются адаптеру, который строит «дерево возможных токенов», аналогично beam-search.
👉 Полученное дерево затем проверяется одним forward pass основной модели.
Разница между EAGLE-1 и EAGLE-3, как вы, наверное, догадались, это больше, выше, сильнее. Например, в EAGLE-1 адаптер тренировали на почти 70к диалогах, а в EAGLE-3 уже 500к.
Но и тут, видимо, начинает близиться конец, ведь в последней статье авторы отмечают, что добавление новых данных и расширение адаптера уже не сильно растят метрики.
A growing trend in the LLM community is scaling up training data to improve model intelligence without increasing inference costs. However, we observe that scaling up data provides limited improvements for EAGLE.
Similarly, we aim to improve the acceptance rate and acceleration ratio of EAGLE by increasing its training data. Unfortunately, we observe that the gains from additional training data for EAGLE are limited.
Запасаемся попкорном и следим за развитием событий!
🔥15👏6🤩6👀5👍2❤1
Приглашаем на наш первый эфир: введение в рекомендации или как подступиться к задаче про рекомендательную систему на Avito ML Cup.
📅 Эфир пройдёт во вторник, 13 мая, в 17:00 мск. Прямо в этом канале.
🎤 На связь выйдет Толя Мастрюков, Senior DS Engineer.
✍️ Рекомендательные системы только недавно стали набирать популярность в ML, поэтому мы хотим провести встречку и углубиться в эту тему:
— Расскажем теорию по двухэтапным рекомендательным системам
— Рассмотрим на практике, как их применить
— Обсудим ваши вопросы, в том числе про задачу на ML Cup
Свои вопросы по теме пишите в комментариях под постом — глупых вопросов не бывает, разберёмся со всеми 🙂
📅 Эфир пройдёт во вторник, 13 мая, в 17:00 мск. Прямо в этом канале.
🎤 На связь выйдет Толя Мастрюков, Senior DS Engineer.
✍️ Рекомендательные системы только недавно стали набирать популярность в ML, поэтому мы хотим провести встречку и углубиться в эту тему:
— Расскажем теорию по двухэтапным рекомендательным системам
— Рассмотрим на практике, как их применить
— Обсудим ваши вопросы, в том числе про задачу на ML Cup
Свои вопросы по теме пишите в комментариях под постом — глупых вопросов не бывает, разберёмся со всеми 🙂
🔥9✍3👍3
⏰ Через час начинаем эфир о рекомендациях ⏰
Толя Мастрюков, Senior DS Engineer, выйдет на связь и расскажет о рекомендательных системах.
Будет теория, практика и ответы на ваши вопросы — их можно оставить под предыдущим постом.
Ждем всех в 17:00 в этом канале.
Толя Мастрюков, Senior DS Engineer, выйдет на связь и расскажет о рекомендательных системах.
Будет теория, практика и ответы на ваши вопросы — их можно оставить под предыдущим постом.
Ждем всех в 17:00 в этом канале.
👍12
Запись эфира «Введение в рекомендации»
Толя Мастрюков рассказал о теории и практике по двухэтапным рекомендательным системам и разобрал вопросы участников, в том числе по задаче на Avito ML Cup.
Смотреть на YouTube →
Толя Мастрюков рассказал о теории и практике по двухэтапным рекомендательным системам и разобрал вопросы участников, в том числе по задаче на Avito ML Cup.
Смотреть на YouTube →
YouTube
Как подступиться к задаче про рекомендательную систему на Avito ML Cup
13 мая прошел эфир в тг-канале Доска AI объявлений. Рассказали про то, как подступиться к задаче про рекомендательную систему на Avito ML Cup.
Ведущий: Толя Мастрюков, Senior DS Engineer.
Рекомендательные системы только недавно стали набирать популярность…
Ведущий: Толя Мастрюков, Senior DS Engineer.
Рекомендательные системы только недавно стали набирать популярность…
👍7
Всем привет! У микрофона Алина Щукина, DS-инженер из команды Horizontal ML Technologies и по совместительству Lead ML курсов в Академии Аналитиков Авито.
В далёком 2021 я была ученицей первого потока. За 4 года я прошла путь от junior до senior DS, от студентки до руководителя и соавтора ML-курсов.
Сегодня расскажу, как из юных и талантливых ребят мы готовим инженеров на нашем DS-треке. Итак, три столпа, на которых держится этот трек:
1️⃣ Теория из трёх основных частей.
— Фундаментальная база: статистика, SQL, Python и алгоритмы.
— Сердце любого DS — core ML: базовый и продвинутый курсы по машинному обучению. Экзамен по ним проходит в формате mock-собеседования — это настоящая подготовка к интервью.
— Инженерная часть: работа с датасетами, инфраструктура ML и ML System Design.
2️⃣ Практика и ещё раз практика. «Послушал лекцию — сделал тест» — это не наш формат.
Каждое задание — плотная работа с настоящими данными, эксперименты с архитектурами и подходами. Чем больше разных практических задач решено на учёбе, тем легче будет в реальной работе.
3️⃣ Боевая подготовка. Курсовой проект — реальная задача из практики DS-инженеров Авито.
Студент проходит полный цикл DS-разработки: от постановки бизнес-задачи и сбора данных до нагрузочного тестирования обученной модели в проде.
💡 Без менторской поддержки — никуда. Каждого студента ведёт опытный инженер.
Помощь — во всём: анализ кода, mock-собеседования, советы «бывалых» о том, как не выгорать и найти любимую специализацию, когда и в какие компании начинать подаваться — словом, всё, что тревожит ваш ум и душу :)
🚀 Новый набор уже начался. Если хотите не просто делать fit-predict, а разбираться в устройстве моделей под капотом, грамотно анализировать данные, решать прикладные задачи и расти в DS — обратите внимание на Академию ↓↓↓
Пройти отбор в Академию →
В далёком 2021 я была ученицей первого потока. За 4 года я прошла путь от junior до senior DS, от студентки до руководителя и соавтора ML-курсов.
Сегодня расскажу, как из юных и талантливых ребят мы готовим инженеров на нашем DS-треке. Итак, три столпа, на которых держится этот трек:
1️⃣ Теория из трёх основных частей.
— Фундаментальная база: статистика, SQL, Python и алгоритмы.
— Сердце любого DS — core ML: базовый и продвинутый курсы по машинному обучению. Экзамен по ним проходит в формате mock-собеседования — это настоящая подготовка к интервью.
— Инженерная часть: работа с датасетами, инфраструктура ML и ML System Design.
2️⃣ Практика и ещё раз практика. «Послушал лекцию — сделал тест» — это не наш формат.
Каждое задание — плотная работа с настоящими данными, эксперименты с архитектурами и подходами. Чем больше разных практических задач решено на учёбе, тем легче будет в реальной работе.
3️⃣ Боевая подготовка. Курсовой проект — реальная задача из практики DS-инженеров Авито.
Студент проходит полный цикл DS-разработки: от постановки бизнес-задачи и сбора данных до нагрузочного тестирования обученной модели в проде.
💡 Без менторской поддержки — никуда. Каждого студента ведёт опытный инженер.
Помощь — во всём: анализ кода, mock-собеседования, советы «бывалых» о том, как не выгорать и найти любимую специализацию, когда и в какие компании начинать подаваться — словом, всё, что тревожит ваш ум и душу :)
🚀 Новый набор уже начался. Если хотите не просто делать fit-predict, а разбираться в устройстве моделей под капотом, грамотно анализировать данные, решать прикладные задачи и расти в DS — обратите внимание на Академию ↓↓↓
Пройти отбор в Академию →
👍12⚡8✍3🎉2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Наши DS на конференции IML
На видео ребята из DS SWAT, антифрода, монетизации и вертикальных DS команд. Подходите общаться и приходите на доклад Саши Ледовского про ранжирование платных объявлений в 15:30 в Зале 2.
#iml
На видео ребята из DS SWAT, антифрода, монетизации и вертикальных DS команд. Подходите общаться и приходите на доклад Саши Ледовского про ранжирование платных объявлений в 15:30 в Зале 2.
#iml
🔥22🎉6👀5
Зовём в гости на Data Fest 2025: собираемся у нас в офисе в Москве.
Зарегистрироваться →
⌛️ Когда: 31 мая, с 11:00 до 22:30
📍 Где: ул Лесная, 7. БЦ «Белые Сады».
📌 Что в программе. Доклады из секций:
— ML in Marketplace
— Analytical DS
— Advanced LLM
— Соревновательный трек: обсудим Avito ML Cup 2025 и другие челленджи
💬 Помимо докладов будет ламповый нетворкинг, карьерные разговоры и DS-квиз, а вечером — афтепати на веранде!
✨ Встретим лето красиво: с видом, музыкой и общением.
Регистрация уже открыта: переходите по ссылке ниже, жмите «Участвовать» и дождитесь подтверждения.
Будет жарко — и по контенту, и по атмосфере!
Зарегистрироваться →
Зарегистрироваться →
⌛️ Когда: 31 мая, с 11:00 до 22:30
📍 Где: ул Лесная, 7. БЦ «Белые Сады».
📌 Что в программе. Доклады из секций:
— ML in Marketplace
— Analytical DS
— Advanced LLM
— Соревновательный трек: обсудим Avito ML Cup 2025 и другие челленджи
💬 Помимо докладов будет ламповый нетворкинг, карьерные разговоры и DS-квиз, а вечером — афтепати на веранде!
✨ Встретим лето красиво: с видом, музыкой и общением.
Регистрация уже открыта: переходите по ссылке ниже, жмите «Участвовать» и дождитесь подтверждения.
Будет жарко — и по контенту, и по атмосфере!
Зарегистрироваться →
🔥17✍4👍1👀1
Новое на Хабре: как наша LLM помогает продавцам одежды
Бывает так, что частные продавцы оставляют описания товаров пустыми или пишут неинформативные тексты. Из-за этого покупателям не хватает данных, чтобы принять решение, и продажа не случается.
В категории «Одежда, обувь и аксессуары» у продавцов появилось элегантное решение: доверить описание LLM. Она сама составит продающий текст по фото.
В начале мая Сергей Кляхандлер, senior DS-инженер, поделился подробным рассказом про создание этой LLM: откуда взяли данные, какую выбрали архитектуру, как натренировали модель.
Если сами работаете с мультимодальными LLM-моделями, это мастрид.
Читать →
Бывает так, что частные продавцы оставляют описания товаров пустыми или пишут неинформативные тексты. Из-за этого покупателям не хватает данных, чтобы принять решение, и продажа не случается.
В категории «Одежда, обувь и аксессуары» у продавцов появилось элегантное решение: доверить описание LLM. Она сама составит продающий текст по фото.
В начале мая Сергей Кляхандлер, senior DS-инженер, поделился подробным рассказом про создание этой LLM: откуда взяли данные, какую выбрали архитектуру, как натренировали модель.
Если сами работаете с мультимодальными LLM-моделями, это мастрид.
Читать →
🔥11
Всем привет! На связи команда Академии Аналитиков Авито.
Своим DS-треком мы уже немного похвастались в недавнем посте.
Сейчас мы активно набираем новый поток и хотим больше рассказать об Академии. Почему к нам стоит идти? Как попасть? Что мы можем предложить ученикам?
Приглашаем всех на эфир 2 июня в 17:00. Расскажем про обучение, ответим на все ваши вопросы и поможем решиться на подачу заявки.
О чём расскажем
❓ Кто и как может зачислиться в Академию
❓ Какие этапы необходимо пройти перед поступлением
❓ Как организовано обучение
А в конце проведём Q&A-сессию и ответим на вопросы.
Кто будет на встрече
🗣 Дима Кротов — старший аналитик в вертикали Работа
🗣 Миша Пирожков — аналитик в отделе Marketing
🗣 Алина Щукина — старший DS-инженер
🗣 Аня Прокопьева — проджект Академии Аналитиков Авито
🗣 Оля Красовская — старший проджект Академии Аналитиков Авито
📆 Где и когда встречаемся
Эфир будет в канале Коммуналка аналитиков 2 июня в 17:00. Там же можно задать вопросы для Q&A: подписывайтесь и следите за анонсами.
Своим DS-треком мы уже немного похвастались в недавнем посте.
Сейчас мы активно набираем новый поток и хотим больше рассказать об Академии. Почему к нам стоит идти? Как попасть? Что мы можем предложить ученикам?
Приглашаем всех на эфир 2 июня в 17:00. Расскажем про обучение, ответим на все ваши вопросы и поможем решиться на подачу заявки.
О чём расскажем
❓ Кто и как может зачислиться в Академию
❓ Какие этапы необходимо пройти перед поступлением
❓ Как организовано обучение
А в конце проведём Q&A-сессию и ответим на вопросы.
Кто будет на встрече
🗣 Дима Кротов — старший аналитик в вертикали Работа
🗣 Миша Пирожков — аналитик в отделе Marketing
🗣 Алина Щукина — старший DS-инженер
🗣 Аня Прокопьева — проджект Академии Аналитиков Авито
🗣 Оля Красовская — старший проджект Академии Аналитиков Авито
📆 Где и когда встречаемся
Эфир будет в канале Коммуналка аналитиков 2 июня в 17:00. Там же можно задать вопросы для Q&A: подписывайтесь и следите за анонсами.
👍8🤝2😎2👎1