Доска AI-объявлений
3.73K subscribers
270 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
📌 Запись трансляции ML reading club

20 ноября Денис Кайшев — Старший Backend-инженер разбирался с внутренней архитектурой библиотеки NCCL в прямом эфире. Выкладываем видео, посмотрите, если пропустили трансляцию.

О чём говорили:

4:13 Обзор библиотеки NCC
5:11 Основные объекты и инициализация
6:19 Коллективные операции
9:08 Компоненты системы. Основные компоненты: GPU, CPU и сетевая карта.  
10:09 Сетевая эффективность
12:02 Топология и протоколы
17:37 Инициализация и алгоритмы
18:43 Выбор протокола передачи данных
19:42 Оптимизация передачи данных между GPU
22:17 Мультисокетные системы и RDMA
22:50 Оптимизация интернет-взаимодействия
25:37 Балансировка трафика и очереди
29:10 Примитивы коммуникации
31:18 Передача данных и пайплайны
33:07 Варпы и алгоритмы
35:38 Редьюс на уровне кольца
37:40 Древовидное представление
38:45 Роль GPU
39:53 Бенчмарки на Грейс-Хоппере
40:45 Заключение

Видео на ютуб-канале AvitoTech

Задавайте вопросы Денису в комментариях под этим постом ⬇️
🔥15👍42
Привет! С вами Андрей Старостин, DS-инженер в аналитической платформе Авито. Сегодня расскажу, как вместе с командой M42 мы разработали и внедрили в наш продукт ИИ-ассистента m42copilot. Решение упрощает работу с аналитическими данными и делает BI-инструмент доступным для более широкого круга пользователей.

📊 M42 — это инструмент, в котором доступно более 16 000 метрик и 120+ разрезов. Но такой масштаб создаёт трудности: нужную метрику или параметры графика часто сложно найти из-за похожих названий, неочевидных описаний и множества опций. ИИ-ассистент решает эту проблему: по запросу на естественном языке он определяет правильные метрики, подбирает фильтры, показатели и формат визуализации.

🛠️ В основе работы — связка LLM, Retrieval-Augmented Generation и строгий JSON-формат вывода, что минимизирует ошибки и галлюцинации. Ассистент находит метрики с помощью семантического и лексического поиска, Faiss-индексации эмбеддингов и отбора кандидатов для LLM. Для сложных запросов подбираются релевантные few-shot примеры. Выбор оптимального промпта автоматизируется с помощью фреймворка DSPy.

📈 Мы построили бенчмарк для оценки качества и сравнили разные LLM в экспериментах: в задаче поиска метрик точность достигла 0.85 для топ-5 выдачи, в обработке параметров визуализации — до 0.95 по отдельным категориям.

🚀 Вот что получили за два месяца после внедрения:
— около 2 000 запросов,
— с ИИ-ассистентом графики стали строить на 50% быстрее,
— в некоторых случаях поиск метрик ускорился в десятки раз.
Пользователи М42 начали активнее использовать продукт, проникновение выросло на 1,5%.

💫 Основные запросы на развитие:
— расширить число поддерживаемых разрезов,
— добавить возможность вести контекстный диалог с ассистентом в рамках одной аналитической задачи.

Подробнее читайте в нашей статье на Хабре.
🔥62👍2😱1
Всем привет! Я Саша, DS-менеджер в Авито. Знакомые из других компаний часто задают мне такой вопрос: что значит «DS-менеджер»? Раскрываю карты.

Какие у него обязанности
DS-менеджер — это руководитель нескольких команд. Что он делает, можно посмотреть в матрице компетенций.

Ключевые вещи: формирование стратегии, архитектурного видения, выстраивание процессов и бОльший по сравнению с тимлидом горизонт планирования. Ну и конечно работа с руководителями — тимлидами.

На что я трачу своё время
Объяснить структуру рабочего дня по матрице компетенций сложно. Для себя я делю время по характеру деятельности. В таком виде, мне кажется, вам будет понятнее. Цифры ниже основаны на моих личных заметках за последние недели.

👉 Операционная работа: 2 часа в день. В основном статусы, дейли, 1-1, собеседования. Всё, чтобы поддерживать эффективную работу команды. Бывают периоды, когда много собеседований, но это случается эпизодически.

👉 Экспертная работа: 2.5 часа в день. Пишу документы, стратегии, веду консультации, провожу ревью кода, прорабатываю архитектуру решений.

👉 Техническая работа: 1 час в день. Всегда стараюсь чуть-чуть работать руками. Чаще всего это тестирование чужой работы или вспомогательные задачи.

👉 Занятость: 2.5 часа в день. Переписки, решение проблем, организационные вопросы, ответы на запросы.

Бонус: как не потонуть в менеджерской рутине
Операционную работу фиксируем в необходимом разумном количестве. Занятость снижаем, насколько можно. Экспертную работу увеличиваем. Техническую не забрасываем.

Повторюсь, что вышеописанное — личный опыт. На холивар и просто с вопросами приглашаю в комментарии! 👇
14🔥8👍5
Ребята, добавляем в канал интерактив и будем разгонять холиварные вопросы. Сейчас готовим новогоднюю DS-вечеринку.
Давайте обсудим корпоративы?
🔥2
Всем привет! На связи Алина Бабенко, DS Team Lead в Auction Efficiency. В одном из прошлых постов я писала, для чего мы ходим на конференции. Сегодня раскрою эту мысль дальше, потому что нам выдалась прекрасная возможность — посетить CIKM’25 в Южной Корее! 🇰🇷

CIKM — конференция по ML без какой-то выделенной темы, поэтому удалось послушать доклады из разных областей. Больше всего рассказывали про LLM или генеративные рекомендации. Но я расскажу про три доклада, которые касались того, чем мы занимаемся.

1️⃣ Часть команды Auction Efficiency обучает CTR (Click-through rate) модели — это конверсия из показа в клик. При сборе данных мы сталкиваемся со смещениями, чаще всего — с positional bias.

📜 В статье «Addressing Personalized Bias for Unbiased Learning to Rank» идут дальше и развивают проблему на пользовательское смещение, так как люди могут вести себя по-разному. Авторы статьи предлагают применять IPS (inverse propensity score), чтобы перевзвешивать данные с учётом распределения пользователей. Очень интересно попробовать подобный подход к нашим данным! 🙂

2️⃣ Когда пользователь приходит на Авито, чтобы забронировать квартиру, оформить товар с доставкой, или связаться с дилером авто, он проходит долгий путь:
✔️ смотрит разные объявления,
✔️ задаёт поиску параметры и что-то ищет.

В итоге может увидеть одно и то же объявление несколько раз. Мы столкнулись с тем, что из-за предсказаний действий после клика (контактов, сделок, бронирований) не всегда понятно, к каким поискам или кликам стоит атрибутировать это действие.

📜 Статья «See Beyond a Single View: Multi-Attribution Learning Leads to Better Conversion Rate Prediction» как раз рассматривает эту проблему и предлагает интересную архитектуру для решения. Про неё сложно рассказать в формате краткой выжимки, и, возможно, когда-нибудь похожей статье можно будет посвятить отдельный пост 🙂
Но было здорово узнать, что этой темой интересуются.

3️⃣ Монетизационный фактор, которым мы занимаемся, можно рассматривать как ставку в аукционе. К ним можно применить механику резервных цен — не пускать участвовать тех, кто демпингует. Так поддерживаем рыночную экономику, поэтому наша команда сейчас прорабатывает это направление. Оптимальные резервные цены можно также оценивать с помощью ML-модели, которая предсказывает ставки на конкретной выдаче.

📜 В статье «Learning Optimal Personalised Reservation Prices in Impression Ad Auctions with Mixture Density Networks» распределение ставок учится c помощью Mixture Density Network, которые позволяют учитывать персональные факторы пользователей. На основе этого распределения можно подобрать оптимальные резервные цены.
🔥11👍64
Привет, это Данила Бочарников, DS инженер из поиска Авито. Продолжаем разбирать горячие ML-новости. Сегодня говорим о самом важном — деньгах.

💰 Бизнес-эффект: триллионные прогнозы
Согласно свежему исследованию от «Яндекса» и компании «Яков и Партнёры»:

К 2030 году ИИ может приносить экономике 7.9–12.8 трлн рублей ежегодно. Для понимания масштаба: это сопоставимо с выручкой всей банковской отрасли России.

— В отраслях-первопроходцах (e-commerce, телеком, банки) эффект от ИИ уже оценивают в 8% к EBITDA. А будущий ежегодный прирост прогнозируют на уровне 13–21%.

— Что важно — рост ждут даже в традиционных секторах: металлургии, энергетике, строительстве.
Вывод: На бумаге всё идеально. Кажется, стоит внедрить ИИ — и прибыль польётся рекой. Но так ли это?

Обратная сторона медали
Здесь начинается самое интересное. За каждый процент роста нужно платить.

Энергия. Goldman Sachs прогнозирует, что к 2030 году 10% всей электроэнергии США будет уходить только на дата-центры для ИИ. Это колоссальная нагрузка на сети.

Капитальные затраты. Строительство инфраструктуры требует огромных ресурсов. Яркий пример: OpenAI планирует вложить $1.4 трлн при текущей выручке около $20 млрд.

🤔 Главный вопрос: что перевесит?
С одной стороны — триллионы потенциальной прибыли. С другой — триллионы реальных затрат на «еду» для ИИ (чипы, электричество, инфраструктура).

Будет ли это самой выгодной инвестицией века или величайшим пузырём?

Поставьте:
🔥 — если верите, что ИИ окупит все затраты и выйдет в гигантский плюс.
🥴 — если считаете, что мы на пороге «AI-зимы» и финансового пузыря.
🥴20🔥11😁21
Новогодняя онлайн-вечеринка AvitoTechno! 🚀

Приглашаем IT-тусовку технологично проводить 2025 рабочий год. Соберёмся в последнюю пятницу года на стриме, чтобы зарядиться новогодним настроением и послушать сочную музыку!

В программе

🔥 сеты от разработчиков Dj команды AvitoTech;
🔥 мощное выступление от BÖRIS REDWÄLL и зажигательных LAVBLAST.

🎁 Бонус — розыгрыш лимитированного AvitoTechno-набора (в нём свитер, снежный шар с котиком Б/У, шапка и обвес).

Где и как

📌 Дата: 26 декабря 2025 года
📌 Время: 16:00 по Москве
📌 Место: онлайн

Бесплатный доступ и ссылку на трансляцию найдёте в Тг-боте. А ещё — делитесь этим постом с коллегами. Потому что чем нас больше, тем круче атмосфера 😎

До встречи на AvitoTechno! 🪩
🤣64👍2🔥1🥴1
Всем привет! На связи Марк, DS Engineer в команде LLM. Недавно я вернулся из Стамбула, где проходил финал Yandex Cup 2025. В этом году мне удалось занять 2-е место в Analytics Track 🥈

🏁 Финал проходил в формате 5-часового контеста в стиле ICPC/IOAI. В задачах проверяются:
📌 навыки EDA,
📌 матстат,
📌 классические алгоритмы.

Весь пул из 5 задач я закрыл за 2 часа 6 минут. Важно было делать это быстро, поскольку штраф начислялся не только за попытки, но и за время сдачи.

Для меня этот вызов стал отличной возможностью проверить, как инженерный бэкграунд помогает в стрессовых условиях соревнований.

Как проходило соревнование

1️⃣ В первой части были задачи, где требовалась чистая математика и алгоритмическая база: я быстро закрыл блок с числами Каталана и две задачи на динамику и графы.

2️⃣ После начался самый трудозатратный этап — задача на прайсинг. Требовалось не просто построить модель, а выбить идеальный скор 10/10. На это ушло больше всего времени, так как приходилось детально прорабатывать каждый признак.

3️⃣ Финальным аккордом стала интересная задача на стыке статистики и разработки. Нужно было проверить адекватность модели через парный t-тест, а в случае неудачи — вычислить искажённый коэффициент и пересчитать его через МНК.

😵‍💫 Самым напряжённым моментом стал период после закрытия контеста. Пока мы гуляли по Стамбулу, жюри проводило ручное ревью всех решений.

Несколько участников вылетели из топа, так как их решения оказались «хаками» под конкретные тесты, а не общими алгоритмами. Из-за этого я продолжал волноваться даже с готовым результатом, понимая, что в таких соревнованиях чистота кода важна так же, как и скор на публичном лидерборде.

🇹🇷 Сам Стамбул оставил крутейшее впечатление и помог немного переключиться от напряжённого соревнования. Удалось и по Босфору на кораблике поплавать, и побродить по Истикляль.

Кстати, своим «секретным оружием» в этом финале я считаю чашку очень крепкого кофе, которым меня угостил добрый турок прямо перед стартом. Кажется, именно этот заряд бодрости помог сохранить фокус до последней минуты.

Что в итоге
Поездка получилась отличным миксом из жёсткого технического челленджа и крутого отдыха. Если хотите узнать детали по задачам или есть вопросы, как мы в Авито используем похожие подходы — залетайте в комментарии! 👇
🔥478❤‍🔥21
Расширения для Visual Studio Code. Часть 2

Привет! С вами Артём. В прошлый раз мы рассматривали (в основном) расширения для форматирования ĸода. В этот раз я предложу новые инструменты, ĸоторые помогут быть продуĸтивнее и упростят повседневную работу.

Давайте сразу перейдём ĸ ĸарточĸам ↑, а потом возвращайтесь, чтобы установить понравившиеся расширения 🙂

Прямые ссылĸи на расширения:
Git Web Links
Markdown All in One
Markdown PDF
markdownlint
Rainbow CSV
Word Counter

Нравится рубрика? Ставьте 🤍 под постом и подписывайтесь на ĸанал (если вы ещё не подписаны и читаете этот пост), а мы продолжим развивать это направление!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍7🔥5🥰1
Всем привет! Я Настя Рысьмятова и спешу рассказать, что мы с командой запустили курс по LLM, и уже прочитали его в магистратуре Авито в МФТИ🔔

LLM — слишком новая технология, поэтому в большинстве университетов программы обновиться не успели. Мы решили это исправить и разработали курс, в котором собрали самую интересную информацию по обучению и инференсу LLM. Всё, о чём рассказываем — реально используем в работе.

⚡️Курс опирается на современную практику, объясняет, как устроены LLM и как с ними работать в системах.

Что разбираем:

🔘Историю развития LLM, терминологию, области применения, этапы обучения, архитектуру, Attention mechanism — MHA, MQA, GQA, MLA.

🔘Какие бывают источники данных и пайплайны фильтрации, этапы обучения токенизатора, процесс запуска претрейна.

🔘CPU и GPU, внутренние особенности GPU, зачем нужно multi-gpu обучение, различия применяемых в обучении программных и аппаратных технологий, виды параллелизмов.

🔘Роль SFT в alignment; отличие от RLHF/DPO.

🔘Полный файнтюн и LoRa и другие низкоранговые адаптации.

🔘RLHF и как применяем его в Авито.

🔘Ускорение инференса, рассказываем, что такое continuous batching, префикс кэширование и kv cache, page attention, спекулятивный декодинг.

🔘Сжатие моделей: квантизация.

🔘Что такое агенты, предпосылки появления агентов, популярные «архитектуры» АС, фреймворки, best practices.

🔘VLM.

🔘Альтернативы LLM: SSM (Mamba, Jamba), RWKV, titans, BLT, llada.

🤩 В будущем будем читать этот курс в Академии Аналитиков Авито.
Please open Telegram to view this post
VIEW IN TELEGRAM
31🤩11🔥8💅3😎1
Всем привет! Год заканчивается, поэтому мы решили оглянуться и посмотреть как он прошёл.

Чаще всего мы рассказывали вам про LLM. Но не забывали про кейсы, техники обучения и инференса на кластерах, метрики, монетизацию и оптимизацию ранжирования. Разбирали статьи и делились новостями с конференций. Давали практические гайды!

За всё время вы подарили нам почти 3 000 реакций, около 300 000 просмотров и 2 700 репостов. Вы самые крутые подписчики в мире, спасибо!

Заметили, что больше всего вам понравились посты от Насти Рысьмятовой про LLM-команду и нашу модель A-vibe. Продолжим в том же духе 💪

Но, может быть, вам хочется чего-то ещё? Расскажите, о чём из мира Data Science хотите читать в будущем году?

Наша команда поздравляет вас с Новым годом, желает всего самого наилучшего и успехов в работе с вашими моделями!

🕕 🕙🕘🕥♣️🕚 🕤🕘🕣🕘🕚 ❗️ 🔔🔔🔔
Please open Telegram to view this post
VIEW IN TELEGRAM
24🔥72
Народ, всем привет! Как ваши праздники? 👋

Лично я в праздники не притрагиваюсь к основной работе, но для счастья в жизни прохожу один курс. Как у вас?
🐳9💔1