Всем привет! Мы регулярно пишем на Хабр статьи про LLM и не только. Решили показать, что мы успели написать за эту осень:
✍️ Статья от Серёжи Кляхандлера о том, как DS-инженеры совершенствуют автогенерацию описаний и пополняют индекс объявлений Авито.
Читать →
✍️ Показали 10 докладов про ML и LLM с Data Fest Day 2025.
Читать →
✍️ Илья Петряшин написал статью, как мы в Авито обучили ML-модель находить «договорённости» без данных о сделках.
Читать →
✍️ Анастасия Рысьмятова рассказала в статье, как в Авито сделали свою LLM — A-vibe.
Читать →
Если вы что-то пропустили, — советуем наверстать. Напишите в комментариях, какая тема понравилась больше других и почему.
❤️ — если уже видели все статьи.
✍️ Статья от Серёжи Кляхандлера о том, как DS-инженеры совершенствуют автогенерацию описаний и пополняют индекс объявлений Авито.
Читать →
✍️ Показали 10 докладов про ML и LLM с Data Fest Day 2025.
Читать →
✍️ Илья Петряшин написал статью, как мы в Авито обучили ML-модель находить «договорённости» без данных о сделках.
Читать →
✍️ Анастасия Рысьмятова рассказала в статье, как в Авито сделали свою LLM — A-vibe.
Читать →
Если вы что-то пропустили, — советуем наверстать. Напишите в комментариях, какая тема понравилась больше других и почему.
❤️ — если уже видели все статьи.
❤11🔥4
Привет! Я Денис Кайшев — Старший Backend-инженер. В следующий четверг в прямом эфире я проведу ML reading club. Мы прочитаем и разберём статью Demystifying NCCL: An In-depth Analysis of GPU Communication Protocols and Algorithms, чтобы изучить внутреннюю архитектуру библиотеки NCCL.
Вот о чём поговорим:
— как работают внутренние механизмы, для которых почти нет документации,
— как описываются способы обмена при intra/inter node взаимодействии,
— как строятся алгоритмы коллективных операций.
📌 Трансляцию проведём 20 ноября в 18:00 в Контур Толке.
📌 За час до эфира пришлём напоминание и ссылку на встречу.
Приходите — будет интересно!
Вот о чём поговорим:
— как работают внутренние механизмы, для которых почти нет документации,
— как описываются способы обмена при intra/inter node взаимодействии,
— как строятся алгоритмы коллективных операций.
📌 Трансляцию проведём 20 ноября в 18:00 в Контур Толке.
📌 За час до эфира пришлём напоминание и ссылку на встречу.
Приходите — будет интересно!
🔥16❤6⚡2
Всем привет! Я — Света Широковских, DS-инженер в Авито, и сегодня расскажу, как мы с коллегами участвовали в соревновании e-cup от Ozon. Заняли третье место в треке «Логистика» 🎉
В чём задача
Нужно было оптимально распределить заказы по курьерам и построить маршруты. Учитывались разные условия:
— ограничение на рабочее время каждого курьера,
— разное время обслуживания точек,
— микрополигоны, все точки на которых обслуживает один курьер,
— и даже бонусные баллы за сбалансированные маршруты.
Такую постановку можно точно выразить в терминах ЦЛП (целочисленного линейного программирования). Подобные задачи в общем случае NP-трудны, и наша — не исключение.
Часто их решают с помощью солверов, например, на основе метода branch and bound (перебор с отсечениями).
Задачи ЦЛП встречаются во множестве областей — даже в ранжировании на Авито. У меня был доклад про это на конференции e-code.
Как решали
Мы быстро написали бейзлайн, приближённо решив задачу с помощью солвера. А дальше стало ясно, что для улучшения нужно использовать эвристики. Мы реализовали несколько ruin-recreate операторов (они сначала частично разрушают, а потом более оптимально восстанавливают маршруты) на Python, увидели улучшения, а затем ради скорости переписали всё на C++.
Обычно в соревнованиях по машинному обучению можно усреднить предсказания моделей и получить улучшение. В этой задаче всё было не так просто, но мы нашли аналог — распараллелили проверку разных подходов, а потом собрали их в последовательный пайплайн, в котором решение постепенно улучшается на каждом шаге.
Вот как выглядело финальное решение
1️⃣ сначала применяли солвер,
2️⃣ затем снова солвер, но с уменьшенным множеством курьеров,
3️⃣ потом применяли балансировку,
4️⃣ и в конце улучшали результат с помощью эвристик.
Итоги и впечатления
Благодаря такой комбинации точных и эвристических методов мы заняли третье место 🏆
Это соревнование дало возможность не только попробовать себя в новой задаче, но и поработать в команде, где каждый участник усиливает общий результат. Особенно важно быстро экспериментировать и не бояться пробовать разные подходы — например, нейросети очень помогли нам писать код.
Обязательно поучаствую ещё в каком-нибудь соревновании. Ждите новых постов 🚀
В чём задача
Нужно было оптимально распределить заказы по курьерам и построить маршруты. Учитывались разные условия:
— ограничение на рабочее время каждого курьера,
— разное время обслуживания точек,
— микрополигоны, все точки на которых обслуживает один курьер,
— и даже бонусные баллы за сбалансированные маршруты.
Такую постановку можно точно выразить в терминах ЦЛП (целочисленного линейного программирования). Подобные задачи в общем случае NP-трудны, и наша — не исключение.
Часто их решают с помощью солверов, например, на основе метода branch and bound (перебор с отсечениями).
Задачи ЦЛП встречаются во множестве областей — даже в ранжировании на Авито. У меня был доклад про это на конференции e-code.
Как решали
Мы быстро написали бейзлайн, приближённо решив задачу с помощью солвера. А дальше стало ясно, что для улучшения нужно использовать эвристики. Мы реализовали несколько ruin-recreate операторов (они сначала частично разрушают, а потом более оптимально восстанавливают маршруты) на Python, увидели улучшения, а затем ради скорости переписали всё на C++.
Обычно в соревнованиях по машинному обучению можно усреднить предсказания моделей и получить улучшение. В этой задаче всё было не так просто, но мы нашли аналог — распараллелили проверку разных подходов, а потом собрали их в последовательный пайплайн, в котором решение постепенно улучшается на каждом шаге.
Вот как выглядело финальное решение
1️⃣ сначала применяли солвер,
2️⃣ затем снова солвер, но с уменьшенным множеством курьеров,
3️⃣ потом применяли балансировку,
4️⃣ и в конце улучшали результат с помощью эвристик.
Итоги и впечатления
Благодаря такой комбинации точных и эвристических методов мы заняли третье место 🏆
Это соревнование дало возможность не только попробовать себя в новой задаче, но и поработать в команде, где каждый участник усиливает общий результат. Особенно важно быстро экспериментировать и не бояться пробовать разные подходы — например, нейросети очень помогли нам писать код.
Обязательно поучаствую ещё в каком-нибудь соревновании. Ждите новых постов 🚀
🔥26❤9👍5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥20❤10👍3💅2
👋 Привет! На связи Ярослав Хныков, Senior DS-инженер из команды рекомендаций на главной странице. Делюсь впечатлениями о прошедшей конференции ACM RecSys 2025 в Праге, куда я летал вместе с Мишей и Таней из команды item2vec.
Рассказываю о трендах и инсайтах с конференции.
📌 Универсальные модели — новый стандарт
→ Наблюдается активный переход от отдельных моделей под каждый рекомендательный сценарий к универсальным системам, которые решают сразу несколько задач (multi-task learning).
→ В Netflix утверждают, что универсальные модели помогают вырастить качество, ускорить внедрение инноваций, эффективнее использовать ресурсы и снизить количество моделей для поддержки.
📌 Диалоговые рекомендации заменят классический поиск
→ Активно развиваются диалоговые рекомендации на LLM-агентах, которые используют в качестве инструментов веб-поиск, классические рекомендательные модели и товарный поиск.
→ В Amazon верят, что в перспективе диалоговый режим с shopping-ассистентом полностью заменит традиционный поиск.
→ Основные челленджи — дообучение LLM на кейсах conversational shopping и оптимизации для эффективной работы на огромном трафике.
📌 Продолжают развиваться генеративные рекомендательные модели
→ Google, Meta и Kuaishou исследуют способы нативно интегрировать рекомендательные системы в LLM, без использования агентских систем.
→ Для этого используют семантические идентификаторы товаров, которые рассматривают как токены в LLM.
→ Ключевая идея — соединить мощь классического ранжирования RecSys и способности LLM к рассуждению.
Ну и, конечно, отдельное удовольствие — это неформальное общение с коллегами и возможность насладиться атмосферой прекрасной Праги!
Ещё предлагаю посмотреть видео и презентации с конференции
ACM RecSys — это главная мировая конференция в области рекомендательных систем. Просто представьте: в одном месте собираются сотни лучших умов из науки и индустрии с одной целью — научить алгоритмы угадывать наши желания лучше, чем мы сами.
Рассказываю о трендах и инсайтах с конференции.
📌 Универсальные модели — новый стандарт
→ Наблюдается активный переход от отдельных моделей под каждый рекомендательный сценарий к универсальным системам, которые решают сразу несколько задач (multi-task learning).
→ В Netflix утверждают, что универсальные модели помогают вырастить качество, ускорить внедрение инноваций, эффективнее использовать ресурсы и снизить количество моделей для поддержки.
📌 Диалоговые рекомендации заменят классический поиск
→ Активно развиваются диалоговые рекомендации на LLM-агентах, которые используют в качестве инструментов веб-поиск, классические рекомендательные модели и товарный поиск.
→ В Amazon верят, что в перспективе диалоговый режим с shopping-ассистентом полностью заменит традиционный поиск.
→ Основные челленджи — дообучение LLM на кейсах conversational shopping и оптимизации для эффективной работы на огромном трафике.
📌 Продолжают развиваться генеративные рекомендательные модели
→ Google, Meta и Kuaishou исследуют способы нативно интегрировать рекомендательные системы в LLM, без использования агентских систем.
→ Для этого используют семантические идентификаторы товаров, которые рассматривают как токены в LLM.
→ Ключевая идея — соединить мощь классического ранжирования RecSys и способности LLM к рассуждению.
Ну и, конечно, отдельное удовольствие — это неформальное общение с коллегами и возможность насладиться атмосферой прекрасной Праги!
Ещё предлагаю посмотреть видео и презентации с конференции
🔥19👍9
Привет! Напоминаем, что ждём вас на ML reading club через час. Вместе с Денисом Кайшевым прочитаем и разберём статью Demystifying NCCL: An In-depth Analysis of GPU Communication Protocols and Algorithms, чтобы изучить внутреннюю архитектуру библиотеки NCCL.
📌 Эфир пройдёт сегодня, в 18:00.
🔗 Ссылка на подключение в Контур Толк.
Приходите, будет интересно!
📌 Эфир пройдёт сегодня, в 18:00.
🔗 Ссылка на подключение в Контур Толк.
Приходите, будет интересно!
🔥10❤5👍1
Всем привет! На связи Алина Бабенко, Team Lead команды Auction Efficiency. В прошлый раз я рассказывала о команде и о том, зачем мы ходим на конференции. А сегодня напишу не столько о том, как мы развиваемся, сколько об отдыхе 🌴
Наша команда отвечает за монетизационный фактор в поиске и рекомендациях, в частности, мы обучаем модели конверсий. По работе мы много общаемся с командами поиска и рекомендаций, и по некоторым вопросам мнения совпадают не всегда 🫢 Но работа — это работа, она не мешает каждые 2 недели играть в настольные игры. Для этого собираются люди из многих команд отдела монетизации. Мы забываем про разногласия и отлично проводим время. 😎
Настолки бывают очень разные, и мне всегда сложно объяснить людям, во что мы играем. Мы выбираем не очень популярные игры, но такие, что отлично подходят для расслабленного пятничного вечера и больших кампаний.
Иногда мы играем в «Шляпу», и это объяснить проще всего. Но чаще мы выбираем такие игры, как «Декодер», «Суши Го», «Кольт Суперэкспресс» (маленькая версия большого брата), «Визуал», «Пандаворот», «Селестия», «Бонанза,«Тип Топ» и «Кодовые слова» (она кооперативная, то есть все играют против игры, тоже бывает полезно. И нет, это не Codenames).
Для полной картины стоит упомянуть «Диксит», «Крошечные города», «Тропы туканы», «Тени Амстердам», «Опасные слова», «Бумажные Кварталы», «Бункер», «7 чудес», а также «Крылья», хотя в них мы играли по одному разу. Лично я очень люблю серию игр-квестов Unlock (на русском языке «Квест-Коллекция», но в переводе только 2 коробки) — заказываю их аж из другой страны ✈️
Знаете эти игры? Как вы проводите свободное время с коллегами?
❤️ — если играли во что-нибудь из перечисленного.
Наша команда отвечает за монетизационный фактор в поиске и рекомендациях, в частности, мы обучаем модели конверсий. По работе мы много общаемся с командами поиска и рекомендаций, и по некоторым вопросам мнения совпадают не всегда 🫢 Но работа — это работа, она не мешает каждые 2 недели играть в настольные игры. Для этого собираются люди из многих команд отдела монетизации. Мы забываем про разногласия и отлично проводим время. 😎
Настолки бывают очень разные, и мне всегда сложно объяснить людям, во что мы играем. Мы выбираем не очень популярные игры, но такие, что отлично подходят для расслабленного пятничного вечера и больших кампаний.
Иногда мы играем в «Шляпу», и это объяснить проще всего. Но чаще мы выбираем такие игры, как «Декодер», «Суши Го», «Кольт Суперэкспресс» (маленькая версия большого брата), «Визуал», «Пандаворот», «Селестия», «Бонанза,«Тип Топ» и «Кодовые слова» (она кооперативная, то есть все играют против игры, тоже бывает полезно. И нет, это не Codenames).
Для полной картины стоит упомянуть «Диксит», «Крошечные города», «Тропы туканы», «Тени Амстердам», «Опасные слова», «Бумажные Кварталы», «Бункер», «7 чудес», а также «Крылья», хотя в них мы играли по одному разу. Лично я очень люблю серию игр-квестов Unlock (на русском языке «Квест-Коллекция», но в переводе только 2 коробки) — заказываю их аж из другой страны ✈️
Знаете эти игры? Как вы проводите свободное время с коллегами?
❤️ — если играли во что-нибудь из перечисленного.
❤16🔥5👍1
📌 Запись трансляции ML reading club
20 ноября Денис Кайшев — Старший Backend-инженер разбирался с внутренней архитектурой библиотеки NCCL в прямом эфире. Выкладываем видео, посмотрите, если пропустили трансляцию.
О чём говорили:
4:13 Обзор библиотеки NCC
5:11 Основные объекты и инициализация
6:19 Коллективные операции
9:08 Компоненты системы. Основные компоненты: GPU, CPU и сетевая карта.
10:09 Сетевая эффективность
12:02 Топология и протоколы
17:37 Инициализация и алгоритмы
18:43 Выбор протокола передачи данных
19:42 Оптимизация передачи данных между GPU
22:17 Мультисокетные системы и RDMA
22:50 Оптимизация интернет-взаимодействия
25:37 Балансировка трафика и очереди
29:10 Примитивы коммуникации
31:18 Передача данных и пайплайны
33:07 Варпы и алгоритмы
35:38 Редьюс на уровне кольца
37:40 Древовидное представление
38:45 Роль GPU
39:53 Бенчмарки на Грейс-Хоппере
40:45 Заключение
Видео на ютуб-канале AvitoTech
Задавайте вопросы Денису в комментариях под этим постом ⬇️
20 ноября Денис Кайшев — Старший Backend-инженер разбирался с внутренней архитектурой библиотеки NCCL в прямом эфире. Выкладываем видео, посмотрите, если пропустили трансляцию.
О чём говорили:
4:13 Обзор библиотеки NCC
5:11 Основные объекты и инициализация
6:19 Коллективные операции
9:08 Компоненты системы. Основные компоненты: GPU, CPU и сетевая карта.
10:09 Сетевая эффективность
12:02 Топология и протоколы
17:37 Инициализация и алгоритмы
18:43 Выбор протокола передачи данных
19:42 Оптимизация передачи данных между GPU
22:17 Мультисокетные системы и RDMA
22:50 Оптимизация интернет-взаимодействия
25:37 Балансировка трафика и очереди
29:10 Примитивы коммуникации
31:18 Передача данных и пайплайны
33:07 Варпы и алгоритмы
35:38 Редьюс на уровне кольца
37:40 Древовидное представление
38:45 Роль GPU
39:53 Бенчмарки на Грейс-Хоппере
40:45 Заключение
Видео на ютуб-канале AvitoTech
Задавайте вопросы Денису в комментариях под этим постом ⬇️
🔥15👍4❤2
Привет! С вами Андрей Старостин, DS-инженер в аналитической платформе Авито. Сегодня расскажу, как вместе с командой M42 мы разработали и внедрили в наш продукт ИИ-ассистента m42copilot. Решение упрощает работу с аналитическими данными и делает BI-инструмент доступным для более широкого круга пользователей.
📊 M42 — это инструмент, в котором доступно более 16 000 метрик и 120+ разрезов. Но такой масштаб создаёт трудности: нужную метрику или параметры графика часто сложно найти из-за похожих названий, неочевидных описаний и множества опций. ИИ-ассистент решает эту проблему: по запросу на естественном языке он определяет правильные метрики, подбирает фильтры, показатели и формат визуализации.
🛠️ В основе работы — связка LLM, Retrieval-Augmented Generation и строгий JSON-формат вывода, что минимизирует ошибки и галлюцинации. Ассистент находит метрики с помощью семантического и лексического поиска, Faiss-индексации эмбеддингов и отбора кандидатов для LLM. Для сложных запросов подбираются релевантные few-shot примеры. Выбор оптимального промпта автоматизируется с помощью фреймворка DSPy.
📈 Мы построили бенчмарк для оценки качества и сравнили разные LLM в экспериментах: в задаче поиска метрик точность достигла 0.85 для топ-5 выдачи, в обработке параметров визуализации — до 0.95 по отдельным категориям.
🚀 Вот что получили за два месяца после внедрения:
— около 2 000 запросов,
— с ИИ-ассистентом графики стали строить на 50% быстрее,
— в некоторых случаях поиск метрик ускорился в десятки раз.
Пользователи М42 начали активнее использовать продукт, проникновение выросло на 1,5%.
💫 Основные запросы на развитие:
— расширить число поддерживаемых разрезов,
— добавить возможность вести контекстный диалог с ассистентом в рамках одной аналитической задачи.
Подробнее читайте в нашей статье на Хабре.
📊 M42 — это инструмент, в котором доступно более 16 000 метрик и 120+ разрезов. Но такой масштаб создаёт трудности: нужную метрику или параметры графика часто сложно найти из-за похожих названий, неочевидных описаний и множества опций. ИИ-ассистент решает эту проблему: по запросу на естественном языке он определяет правильные метрики, подбирает фильтры, показатели и формат визуализации.
🛠️ В основе работы — связка LLM, Retrieval-Augmented Generation и строгий JSON-формат вывода, что минимизирует ошибки и галлюцинации. Ассистент находит метрики с помощью семантического и лексического поиска, Faiss-индексации эмбеддингов и отбора кандидатов для LLM. Для сложных запросов подбираются релевантные few-shot примеры. Выбор оптимального промпта автоматизируется с помощью фреймворка DSPy.
📈 Мы построили бенчмарк для оценки качества и сравнили разные LLM в экспериментах: в задаче поиска метрик точность достигла 0.85 для топ-5 выдачи, в обработке параметров визуализации — до 0.95 по отдельным категориям.
🚀 Вот что получили за два месяца после внедрения:
— около 2 000 запросов,
— с ИИ-ассистентом графики стали строить на 50% быстрее,
— в некоторых случаях поиск метрик ускорился в десятки раз.
Пользователи М42 начали активнее использовать продукт, проникновение выросло на 1,5%.
💫 Основные запросы на развитие:
— расширить число поддерживаемых разрезов,
— добавить возможность вести контекстный диалог с ассистентом в рамках одной аналитической задачи.
Подробнее читайте в нашей статье на Хабре.
🔥6❤2👍2😱1
Всем привет! Я Саша, DS-менеджер в Авито. Знакомые из других компаний часто задают мне такой вопрос: что значит «DS-менеджер»? Раскрываю карты.
Какие у него обязанности
DS-менеджер — это руководитель нескольких команд. Что он делает, можно посмотреть в матрице компетенций.
Ключевые вещи: формирование стратегии, архитектурного видения, выстраивание процессов и бОльший по сравнению с тимлидом горизонт планирования. Ну и конечно работа с руководителями — тимлидами.
На что я трачу своё время
Объяснить структуру рабочего дня по матрице компетенций сложно. Для себя я делю время по характеру деятельности. В таком виде, мне кажется, вам будет понятнее. Цифры ниже основаны на моих личных заметках за последние недели.
👉 Операционная работа: 2 часа в день. В основном статусы, дейли, 1-1, собеседования. Всё, чтобы поддерживать эффективную работу команды. Бывают периоды, когда много собеседований, но это случается эпизодически.
👉 Экспертная работа: 2.5 часа в день. Пишу документы, стратегии, веду консультации, провожу ревью кода, прорабатываю архитектуру решений.
👉 Техническая работа: 1 час в день. Всегда стараюсь чуть-чуть работать руками. Чаще всего это тестирование чужой работы или вспомогательные задачи.
👉 Занятость: 2.5 часа в день. Переписки, решение проблем, организационные вопросы, ответы на запросы.
Бонус: как не потонуть в менеджерской рутине
Операционную работу фиксируем в необходимом разумном количестве. Занятость снижаем, насколько можно. Экспертную работу увеличиваем. Техническую не забрасываем.
Повторюсь, что вышеописанное — личный опыт. На холивар и просто с вопросами приглашаю в комментарии! 👇
Какие у него обязанности
DS-менеджер — это руководитель нескольких команд. Что он делает, можно посмотреть в матрице компетенций.
Ключевые вещи: формирование стратегии, архитектурного видения, выстраивание процессов и бОльший по сравнению с тимлидом горизонт планирования. Ну и конечно работа с руководителями — тимлидами.
На что я трачу своё время
Объяснить структуру рабочего дня по матрице компетенций сложно. Для себя я делю время по характеру деятельности. В таком виде, мне кажется, вам будет понятнее. Цифры ниже основаны на моих личных заметках за последние недели.
👉 Операционная работа: 2 часа в день. В основном статусы, дейли, 1-1, собеседования. Всё, чтобы поддерживать эффективную работу команды. Бывают периоды, когда много собеседований, но это случается эпизодически.
👉 Экспертная работа: 2.5 часа в день. Пишу документы, стратегии, веду консультации, провожу ревью кода, прорабатываю архитектуру решений.
👉 Техническая работа: 1 час в день. Всегда стараюсь чуть-чуть работать руками. Чаще всего это тестирование чужой работы или вспомогательные задачи.
👉 Занятость: 2.5 часа в день. Переписки, решение проблем, организационные вопросы, ответы на запросы.
Бонус: как не потонуть в менеджерской рутине
Операционную работу фиксируем в необходимом разумном количестве. Занятость снижаем, насколько можно. Экспертную работу увеличиваем. Техническую не забрасываем.
Повторюсь, что вышеописанное — личный опыт. На холивар и просто с вопросами приглашаю в комментарии! 👇
❤14🔥8👍5
Ребята, добавляем в канал интерактив и будем разгонять холиварные вопросы. Сейчас готовим новогоднюю DS-вечеринку.
Давайте обсудим корпоративы?
Давайте обсудим корпоративы?
🔥2
Как вы относитесь к новогодним корпоративам?
Anonymous Poll
33%
Готов разрывать 😈
20%
Люблю исключительно ламповые вечеринки ☕️
4%
Как же я устаю за декабрь от постоянных тусовок 🥴
41%
Заплатите лучше деньгами 💸
2%
Другое (пишите в комментариях)
Всем привет! На связи Алина Бабенко, DS Team Lead в Auction Efficiency. В одном из прошлых постов я писала, для чего мы ходим на конференции. Сегодня раскрою эту мысль дальше, потому что нам выдалась прекрасная возможность — посетить CIKM’25 в Южной Корее! 🇰🇷
CIKM — конференция по ML без какой-то выделенной темы, поэтому удалось послушать доклады из разных областей. Больше всего рассказывали про LLM или генеративные рекомендации. Но я расскажу про три доклада, которые касались того, чем мы занимаемся.
1️⃣ Часть команды Auction Efficiency обучает CTR (Click-through rate) модели — это конверсия из показа в клик. При сборе данных мы сталкиваемся со смещениями, чаще всего — с positional bias.
📜 В статье «Addressing Personalized Bias for Unbiased Learning to Rank» идут дальше и развивают проблему на пользовательское смещение, так как люди могут вести себя по-разному. Авторы статьи предлагают применять IPS (inverse propensity score), чтобы перевзвешивать данные с учётом распределения пользователей. Очень интересно попробовать подобный подход к нашим данным! 🙂
2️⃣ Когда пользователь приходит на Авито, чтобы забронировать квартиру, оформить товар с доставкой, или связаться с дилером авто, он проходит долгий путь:
✔️ смотрит разные объявления,
✔️ задаёт поиску параметры и что-то ищет.
В итоге может увидеть одно и то же объявление несколько раз. Мы столкнулись с тем, что из-за предсказаний действий после клика (контактов, сделок, бронирований) не всегда понятно, к каким поискам или кликам стоит атрибутировать это действие.
📜 Статья «See Beyond a Single View: Multi-Attribution Learning Leads to Better Conversion Rate Prediction» как раз рассматривает эту проблему и предлагает интересную архитектуру для решения. Про неё сложно рассказать в формате краткой выжимки, и, возможно, когда-нибудь похожей статье можно будет посвятить отдельный пост 🙂
Но было здорово узнать, что этой темой интересуются.
3️⃣ Монетизационный фактор, которым мы занимаемся, можно рассматривать как ставку в аукционе. К ним можно применить механику резервных цен — не пускать участвовать тех, кто демпингует. Так поддерживаем рыночную экономику, поэтому наша команда сейчас прорабатывает это направление. Оптимальные резервные цены можно также оценивать с помощью ML-модели, которая предсказывает ставки на конкретной выдаче.
📜 В статье «Learning Optimal Personalised Reservation Prices in Impression Ad Auctions with Mixture Density Networks» распределение ставок учится c помощью Mixture Density Network, которые позволяют учитывать персональные факторы пользователей. На основе этого распределения можно подобрать оптимальные резервные цены.
CIKM — конференция по ML без какой-то выделенной темы, поэтому удалось послушать доклады из разных областей. Больше всего рассказывали про LLM или генеративные рекомендации. Но я расскажу про три доклада, которые касались того, чем мы занимаемся.
1️⃣ Часть команды Auction Efficiency обучает CTR (Click-through rate) модели — это конверсия из показа в клик. При сборе данных мы сталкиваемся со смещениями, чаще всего — с positional bias.
📜 В статье «Addressing Personalized Bias for Unbiased Learning to Rank» идут дальше и развивают проблему на пользовательское смещение, так как люди могут вести себя по-разному. Авторы статьи предлагают применять IPS (inverse propensity score), чтобы перевзвешивать данные с учётом распределения пользователей. Очень интересно попробовать подобный подход к нашим данным! 🙂
2️⃣ Когда пользователь приходит на Авито, чтобы забронировать квартиру, оформить товар с доставкой, или связаться с дилером авто, он проходит долгий путь:
✔️ смотрит разные объявления,
✔️ задаёт поиску параметры и что-то ищет.
В итоге может увидеть одно и то же объявление несколько раз. Мы столкнулись с тем, что из-за предсказаний действий после клика (контактов, сделок, бронирований) не всегда понятно, к каким поискам или кликам стоит атрибутировать это действие.
📜 Статья «See Beyond a Single View: Multi-Attribution Learning Leads to Better Conversion Rate Prediction» как раз рассматривает эту проблему и предлагает интересную архитектуру для решения. Про неё сложно рассказать в формате краткой выжимки, и, возможно, когда-нибудь похожей статье можно будет посвятить отдельный пост 🙂
Но было здорово узнать, что этой темой интересуются.
3️⃣ Монетизационный фактор, которым мы занимаемся, можно рассматривать как ставку в аукционе. К ним можно применить механику резервных цен — не пускать участвовать тех, кто демпингует. Так поддерживаем рыночную экономику, поэтому наша команда сейчас прорабатывает это направление. Оптимальные резервные цены можно также оценивать с помощью ML-модели, которая предсказывает ставки на конкретной выдаче.
📜 В статье «Learning Optimal Personalised Reservation Prices in Impression Ad Auctions with Mixture Density Networks» распределение ставок учится c помощью Mixture Density Network, которые позволяют учитывать персональные факторы пользователей. На основе этого распределения можно подобрать оптимальные резервные цены.
🔥11👍6❤4
Привет, это Данила Бочарников, DS инженер из поиска Авито. Продолжаем разбирать горячие ML-новости. Сегодня говорим о самом важном — деньгах.
💰 Бизнес-эффект: триллионные прогнозы
Согласно свежему исследованию от «Яндекса» и компании «Яков и Партнёры»:
— К 2030 году ИИ может приносить экономике 7.9–12.8 трлн рублей ежегодно. Для понимания масштаба: это сопоставимо с выручкой всей банковской отрасли России.
— В отраслях-первопроходцах (e-commerce, телеком, банки) эффект от ИИ уже оценивают в 8% к EBITDA. А будущий ежегодный прирост прогнозируют на уровне 13–21%.
— Что важно — рост ждут даже в традиционных секторах: металлургии, энергетике, строительстве.
Вывод: На бумаге всё идеально. Кажется, стоит внедрить ИИ — и прибыль польётся рекой. Но так ли это?
⚡ Обратная сторона медали
Здесь начинается самое интересное. За каждый процент роста нужно платить.
— Энергия. Goldman Sachs прогнозирует, что к 2030 году 10% всей электроэнергии США будет уходить только на дата-центры для ИИ. Это колоссальная нагрузка на сети.
— Капитальные затраты. Строительство инфраструктуры требует огромных ресурсов. Яркий пример: OpenAI планирует вложить $1.4 трлн при текущей выручке около $20 млрд.
🤔 Главный вопрос: что перевесит?
С одной стороны — триллионы потенциальной прибыли. С другой — триллионы реальных затрат на «еду» для ИИ (чипы, электричество, инфраструктура).
Будет ли это самой выгодной инвестицией века или величайшим пузырём?
Поставьте:
🔥 — если верите, что ИИ окупит все затраты и выйдет в гигантский плюс.
🥴 — если считаете, что мы на пороге «AI-зимы» и финансового пузыря.
💰 Бизнес-эффект: триллионные прогнозы
Согласно свежему исследованию от «Яндекса» и компании «Яков и Партнёры»:
— К 2030 году ИИ может приносить экономике 7.9–12.8 трлн рублей ежегодно. Для понимания масштаба: это сопоставимо с выручкой всей банковской отрасли России.
— В отраслях-первопроходцах (e-commerce, телеком, банки) эффект от ИИ уже оценивают в 8% к EBITDA. А будущий ежегодный прирост прогнозируют на уровне 13–21%.
— Что важно — рост ждут даже в традиционных секторах: металлургии, энергетике, строительстве.
Вывод: На бумаге всё идеально. Кажется, стоит внедрить ИИ — и прибыль польётся рекой. Но так ли это?
⚡ Обратная сторона медали
Здесь начинается самое интересное. За каждый процент роста нужно платить.
— Энергия. Goldman Sachs прогнозирует, что к 2030 году 10% всей электроэнергии США будет уходить только на дата-центры для ИИ. Это колоссальная нагрузка на сети.
— Капитальные затраты. Строительство инфраструктуры требует огромных ресурсов. Яркий пример: OpenAI планирует вложить $1.4 трлн при текущей выручке около $20 млрд.
🤔 Главный вопрос: что перевесит?
С одной стороны — триллионы потенциальной прибыли. С другой — триллионы реальных затрат на «еду» для ИИ (чипы, электричество, инфраструктура).
Будет ли это самой выгодной инвестицией века или величайшим пузырём?
Поставьте:
🔥 — если верите, что ИИ окупит все затраты и выйдет в гигантский плюс.
🥴 — если считаете, что мы на пороге «AI-зимы» и финансового пузыря.
🥴20🔥11😁2❤1
Новогодняя онлайн-вечеринка AvitoTechno! 🚀
Приглашаем IT-тусовку технологично проводить 2025 рабочий год. Соберёмся в последнюю пятницу года на стриме, чтобы зарядиться новогодним настроением и послушать сочную музыку!
В программе
🔥 сеты от разработчиков Dj команды AvitoTech;
🔥 мощное выступление от BÖRIS REDWÄLL и зажигательных LAVBLAST.
🎁 Бонус — розыгрыш лимитированного AvitoTechno-набора (в нём свитер, снежный шар с котиком Б/У, шапка и обвес).
Где и как
📌 Дата: 26 декабря 2025 года
📌 Время: 16:00 по Москве
📌 Место: онлайн
Бесплатный доступ и ссылку на трансляцию найдёте в Тг-боте. А ещё — делитесь этим постом с коллегами. Потому что чем нас больше, тем круче атмосфера 😎
До встречи на AvitoTechno! 🪩
Приглашаем IT-тусовку технологично проводить 2025 рабочий год. Соберёмся в последнюю пятницу года на стриме, чтобы зарядиться новогодним настроением и послушать сочную музыку!
В программе
🔥 сеты от разработчиков Dj команды AvitoTech;
🔥 мощное выступление от BÖRIS REDWÄLL и зажигательных LAVBLAST.
🎁 Бонус — розыгрыш лимитированного AvitoTechno-набора (в нём свитер, снежный шар с котиком Б/У, шапка и обвес).
Где и как
📌 Дата: 26 декабря 2025 года
📌 Время: 16:00 по Москве
📌 Место: онлайн
Бесплатный доступ и ссылку на трансляцию найдёте в Тг-боте. А ещё — делитесь этим постом с коллегами. Потому что чем нас больше, тем круче атмосфера 😎
До встречи на AvitoTechno! 🪩
🤣6❤4👍2🔥1🥴1
Всем привет! На связи Марк, DS Engineer в команде LLM. Недавно я вернулся из Стамбула, где проходил финал Yandex Cup 2025. В этом году мне удалось занять 2-е место в Analytics Track 🥈
🏁 Финал проходил в формате 5-часового контеста в стиле ICPC/IOAI. В задачах проверяются:
📌 навыки EDA,
📌 матстат,
📌 классические алгоритмы.
Весь пул из 5 задач я закрыл за 2 часа 6 минут. Важно было делать это быстро, поскольку штраф начислялся не только за попытки, но и за время сдачи.
Для меня этот вызов стал отличной возможностью проверить, как инженерный бэкграунд помогает в стрессовых условиях соревнований.
Как проходило соревнование
1️⃣ В первой части были задачи, где требовалась чистая математика и алгоритмическая база: я быстро закрыл блок с числами Каталана и две задачи на динамику и графы.
2️⃣ После начался самый трудозатратный этап — задача на прайсинг. Требовалось не просто построить модель, а выбить идеальный скор 10/10. На это ушло больше всего времени, так как приходилось детально прорабатывать каждый признак.
3️⃣ Финальным аккордом стала интересная задача на стыке статистики и разработки. Нужно было проверить адекватность модели через парный t-тест, а в случае неудачи — вычислить искажённый коэффициент и пересчитать его через МНК.
😵💫 Самым напряжённым моментом стал период после закрытия контеста. Пока мы гуляли по Стамбулу, жюри проводило ручное ревью всех решений.
Несколько участников вылетели из топа, так как их решения оказались «хаками» под конкретные тесты, а не общими алгоритмами. Из-за этого я продолжал волноваться даже с готовым результатом, понимая, что в таких соревнованиях чистота кода важна так же, как и скор на публичном лидерборде.
🇹🇷 Сам Стамбул оставил крутейшее впечатление и помог немного переключиться от напряжённого соревнования. Удалось и по Босфору на кораблике поплавать, и побродить по Истикляль.
Кстати, своим «секретным оружием» в этом финале я считаю чашку очень крепкого кофе, которым меня угостил добрый турок прямо перед стартом. Кажется, именно этот заряд бодрости помог сохранить фокус до последней минуты.
Что в итоге
Поездка получилась отличным миксом из жёсткого технического челленджа и крутого отдыха. Если хотите узнать детали по задачам или есть вопросы, как мы в Авито используем похожие подходы — залетайте в комментарии! 👇
🏁 Финал проходил в формате 5-часового контеста в стиле ICPC/IOAI. В задачах проверяются:
📌 навыки EDA,
📌 матстат,
📌 классические алгоритмы.
Весь пул из 5 задач я закрыл за 2 часа 6 минут. Важно было делать это быстро, поскольку штраф начислялся не только за попытки, но и за время сдачи.
Для меня этот вызов стал отличной возможностью проверить, как инженерный бэкграунд помогает в стрессовых условиях соревнований.
Как проходило соревнование
1️⃣ В первой части были задачи, где требовалась чистая математика и алгоритмическая база: я быстро закрыл блок с числами Каталана и две задачи на динамику и графы.
2️⃣ После начался самый трудозатратный этап — задача на прайсинг. Требовалось не просто построить модель, а выбить идеальный скор 10/10. На это ушло больше всего времени, так как приходилось детально прорабатывать каждый признак.
3️⃣ Финальным аккордом стала интересная задача на стыке статистики и разработки. Нужно было проверить адекватность модели через парный t-тест, а в случае неудачи — вычислить искажённый коэффициент и пересчитать его через МНК.
😵💫 Самым напряжённым моментом стал период после закрытия контеста. Пока мы гуляли по Стамбулу, жюри проводило ручное ревью всех решений.
Несколько участников вылетели из топа, так как их решения оказались «хаками» под конкретные тесты, а не общими алгоритмами. Из-за этого я продолжал волноваться даже с готовым результатом, понимая, что в таких соревнованиях чистота кода важна так же, как и скор на публичном лидерборде.
🇹🇷 Сам Стамбул оставил крутейшее впечатление и помог немного переключиться от напряжённого соревнования. Удалось и по Босфору на кораблике поплавать, и побродить по Истикляль.
Кстати, своим «секретным оружием» в этом финале я считаю чашку очень крепкого кофе, которым меня угостил добрый турок прямо перед стартом. Кажется, именно этот заряд бодрости помог сохранить фокус до последней минуты.
Что в итоге
Поездка получилась отличным миксом из жёсткого технического челленджа и крутого отдыха. Если хотите узнать детали по задачам или есть вопросы, как мы в Авито используем похожие подходы — залетайте в комментарии! 👇
🔥47❤8❤🔥2⚡1
Расширения для Visual Studio Code. Часть 2
Привет! С вами Артём. В прошлый раз мы рассматривали (в основном) расширения для форматирования ĸода. В этот раз я предложу новые инструменты, ĸоторые помогут быть продуĸтивнее и упростят повседневную работу.
Давайте сразу перейдём ĸ ĸарточĸам ↑, а потом возвращайтесь, чтобы установить понравившиеся расширения🙂
Прямые ссылĸи на расширения:
→ Git Web Links
→ Markdown All in One
→ Markdown PDF
→ markdownlint
→ Rainbow CSV
→ Word Counter
Нравится рубрика? Ставьте🤍 под постом и подписывайтесь на ĸанал (если вы ещё не подписаны и читаете этот пост), а мы продолжим развивать это направление!
Привет! С вами Артём. В прошлый раз мы рассматривали (в основном) расширения для форматирования ĸода. В этот раз я предложу новые инструменты, ĸоторые помогут быть продуĸтивнее и упростят повседневную работу.
Давайте сразу перейдём ĸ ĸарточĸам ↑, а потом возвращайтесь, чтобы установить понравившиеся расширения
Прямые ссылĸи на расширения:
→ Git Web Links
→ Markdown All in One
→ Markdown PDF
→ markdownlint
→ Rainbow CSV
→ Word Counter
Нравится рубрика? Ставьте
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍7🔥5🥰1