Доска AI-объявлений
3.72K subscribers
270 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Всем привет! На связи Илья Валяев, DS Team Lead, сегодня хочу рассказать о нашей команде поискового ранжирования.

Наша миссия — вырастить количество сделок через поиск. Каждый день миллионы пользователей ищут товары и услуги на Авито, и мы отвечаем за то, чтобы они не просто находили подходящие объявления, а совершали сделки.

Над чем мы работаем?

🔹 Вертикализация моделей — адаптируем ранжирование под разные категории (авто, недвижимость, услуги и другие).

🔹 Предсказание всех этапов воронки — улучшаем конверсию на каждом шаге: от просмотра до сделки.

🔹 Оценка релевантности — учим модели понимать, насколько объявление соответствует запросу.

🔹 Зоопарк моделей — масштабируем обучение моделей, чтобы внедрять изменения сразу везде.

🔹 Быстрая проверка фичей — запускаем эксперименты сразу на всех моделях, а не по одной.

🔹 Персонализация — учитываем интересы и поведение пользователей, чтобы показывать самые подходящие варианты.

🔹 Полнота поиска — экспериментируем с новыми кандидатогенераторами, чтобы находить больше подходящих объявлений.

Что у нас интересного?

Влияние на продукт — наши модели напрямую влияют на опыт миллионов пользователей.

Свобода в выборе задач и решений — от нас ждут приростов метрик, а идеи мы придумываем и тестируем сами.

Сложные задачи — работаем с большими данными и высоконагруженными системами.

Эксперименты — постоянно тестируем гипотезы и внедряем улучшения.

Хотите более глубокий разбор?

✍️ Посмотрите нашу статью на Хабре: там мы подробно разбираем, как устроено поисковое ранжирование.
Читать статью →

✍️ А если интересно больше узнать про другие команды, ориентируйтесь по нашему путеводителю →
🔥85👍5
Если в круговороте рабочих задач и созвонов вы уже не помните, сколько раз на этой неделе слышали будильник, радостно сообщаем, что сегодня пятница 👋

Значит, самое время для поста простого и непринуждённого.

Для всех, кто в мартовском опросе выбрал пункт «немного шуточек не помешает», а также для всех адептов мудрости «не имей 100 рублей, а имей 100 друзей», представляем вам нашу подборку для инвестиций.

Да, инфляция налицо. Но тут мы ни при чём, тем более, что на Авито можно и поторговаться!

Кого бы взяли себе? Делитесь в комментариях.
😁235🤝1
Всем привет! На связи Илья Петряшин, DS-инженер из команды Horizontal ML Technologies. Сегодня расскажу, как мы делаем главную продуктовую метрику Авито.

Чтобы не углубляться в детали, сразу обозначим: наибольшую ценность для Авито представляет сделка между продавцом и покупателем. Поэтому в метрике мы хотим считать сделки — или что-то максимально на них похожее.

Большинство сделок заключается напрямую — в чате, по телефону или при личной встрече. Это создаёт проблему: нет нативного способа определить наличие сделки.

🧠 Отсюда и формулируется задача: научиться по косвенным признакам в поведении пользователей определять, состоялась ли у них сделка.

Первый вопрос: можно ли вообще таким образом зафиксировать наличие сделки? На практике оказывается, что чаще можно определить не сам её факт, а то, насколько люди близки к ней. Значит, в метрике мы будем считать не сделки, а некоторые целевые действия, которые с ними коррелируют.

Следующий вопрос: что считать таким действием? Однозначного ответа нет. Вместо этого можно сформулировать, каким должно быть хорошее описание целевого действия. Оно должно:
— соответствовать бизнес-пониманию
— быть простым
— и единообразным для разных частей Авито

Чтобы получить такое описание, нужно привлекать всех заинтересованных: бизнес, аналитиков и команду, которая делает метрику.

Но если попытаться учесть ожидания всех сторон, появляются противоречия: описание должно охватывать все бизнес-сценарии, при этом оставаться простым и консистентным. Это сложно.

💡 Здесь помогает data-driven подход. Мы не придумываем описание «в вакууме», а калибруем его на реальных данных.

Участники процесса делают разметку пользовательских паттернов поведения, затем мы анализируем расхождения, находим систематические ошибки и уточняем описание. Повторяем этот цикл, пока не получим согласованную формулировку.

В итоге получаем откалиброванное описание целевого действия, которое устраивает всех. А дальше — дело техники: учим ML-модели, которые предсказывают наличие целевого действия в поведении. А уже из этого, с помощью нехитрой аналитики, строим метрику.

Профит! Метрика готова — можно использовать её для А/В-тестов, постановки целей или оценки бизнес-эффектов.
🔥177💯7
Спекулятивный декодинг

Многие слышали, но немногие знают его секреты. Давайте разбираться!
В почти оригинальной статье авторы предлагают следующую идею:
Использовать огромные модели в каждом случае и тратить тонны ресурсов — это расточительно. Лучше оптимизировать процесс и дать большой (target) модели помощника маленькую черновую (draft) модель.

Как это работает под капотом?

1️⃣ Маленькая модель авторегрессионно генерирует сразу K токенов на основе префикса (в общем, как принято в обществе GPT)

2️⃣ Большая модель за один forward pass проверяет эти токены. Если она находит ошибку, то корректирует её, добавляя правильный («бонусный») токен.

3️⃣ Исправленный батч токенов снова отправляется в маленькую модель, и процесс повторяется.
Очень понятно описали у себя этот процесс ребята из vLLM в блоге.

Но есть важный нюанс!

Спекулятивный декодинг наиболее эффективен только на малых размерах батчей. На больших батчах (или при большом K) производительность упирается уже не в Memory Bound (как при маленьких батчах), а в Compute Bound.

В таком режиме преимущество спекулятивного декодинга практически исчезает. Подробнее об этом в обзорной статье, где разбирают проблемы инференса и их решения.

Но заканчивать посты на грустной ноте — плохая примета! Поэтому, продолжим:

На помощь приходит метод EAGLE
Серия статей: EAGLE-1 → EAGLE-2 → EAGLE-3.

Ключевая идея EAGLE — внедрение в основную модель адаптера, позволяющего генерировать сразу несколько токенов за раз:

👉 Основная модель качественно генерирует начальные токены без адаптера.

👉 Информативные эмбеддинги передаются адаптеру, который строит «дерево возможных токенов», аналогично beam-search.

👉 Полученное дерево затем проверяется одним forward pass основной модели.

Разница между EAGLE-1 и EAGLE-3, как вы, наверное, догадались, это больше, выше, сильнее. Например, в EAGLE-1 адаптер тренировали на почти 70к диалогах, а в EAGLE-3 уже 500к.

Но и тут, видимо, начинает близиться конец, ведь в последней статье авторы отмечают, что добавление новых данных и расширение адаптера уже не сильно растят метрики.

A growing trend in the LLM community is scaling up training data to improve model intelligence without increasing inference costs. However, we observe that scaling up data provides limited improvements for EAGLE.

Similarly, we aim to improve the acceptance rate and acceleration ratio of EAGLE by increasing its training data. Unfortunately, we observe that the gains from additional training data for EAGLE are limited.

Запасаемся попкорном и следим за развитием событий!
🔥15👏6🤩6👀5👍21
Приглашаем на наш первый эфир: введение в рекомендации или как подступиться к задаче про рекомендательную систему на Avito ML Cup.

📅 Эфир пройдёт во вторник, 13 мая, в 17:00 мск. Прямо в этом канале.

🎤 На связь выйдет Толя Мастрюков, Senior DS Engineer.

✍️ Рекомендательные системы только недавно стали набирать популярность в ML, поэтому мы хотим провести встречку и углубиться в эту тему:
— Расскажем теорию по двухэтапным рекомендательным системам
— Рассмотрим на практике, как их применить
— Обсудим ваши вопросы, в том числе про задачу на ML Cup

Свои вопросы по теме пишите в комментариях под постом — глупых вопросов не бывает, разберёмся со всеми 🙂
🔥93👍3
Live stream scheduled for
Через час начинаем эфир о рекомендациях

Толя Мастрюков, Senior DS Engineer, выйдет на связь и расскажет о рекомендательных системах.

Будет теория, практика и ответы на ваши вопросы — их можно оставить под предыдущим постом.

Ждем всех в 17:00 в этом канале.
👍12
Чат для ваших вопросов!
👍2
Live stream finished (1 hour)
Всем привет! У микрофона Алина Щукина, DS-инженер из команды Horizontal ML Technologies и по совместительству Lead ML курсов в Академии Аналитиков Авито.

В далёком 2021 я была ученицей первого потока. За 4 года я прошла путь от junior до senior DS, от студентки до руководителя и соавтора ML-курсов.

Сегодня расскажу, как из юных и талантливых ребят мы готовим инженеров на нашем DS-треке. Итак, три столпа, на которых держится этот трек:

1️⃣ Теория из трёх основных частей.

— Фундаментальная база: статистика, SQL, Python и алгоритмы.

— Сердце любого DS — core ML: базовый и продвинутый курсы по машинному обучению. Экзамен по ним проходит в формате mock-собеседования — это настоящая подготовка к интервью.

— Инженерная часть: работа с датасетами, инфраструктура ML и ML System Design.

2️⃣ Практика и ещё раз практика. «Послушал лекцию — сделал тест» — это не наш формат.

Каждое задание — плотная работа с настоящими данными, эксперименты с архитектурами и подходами. Чем больше разных практических задач решено на учёбе, тем легче будет в реальной работе.

3️⃣ Боевая подготовка. Курсовой проект — реальная задача из практики DS-инженеров Авито.

Студент проходит полный цикл DS-разработки: от постановки бизнес-задачи и сбора данных до нагрузочного тестирования обученной модели в проде.

💡 Без менторской поддержки — никуда. Каждого студента ведёт опытный инженер.

Помощь — во всём: анализ кода, mock-собеседования, советы «бывалых» о том, как не выгорать и найти любимую специализацию, когда и в какие компании начинать подаваться — словом, всё, что тревожит ваш ум и душу :)

🚀 Новый набор уже начался. Если хотите не просто делать fit-predict, а разбираться в устройстве моделей под капотом, грамотно анализировать данные, решать прикладные задачи и расти в DS — обратите внимание на Академию ↓↓↓

Пройти отбор в Академию →
👍1283🎉21