Доска AI-объявлений
3.71K subscribers
269 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Привет! Меня зовут Илья Чумак. Сегодня хочу рассказать, как мы автоматизировали создание моделей модерации в Авито.

Модерация — это область, в которой важно быть гибкими. Ландшафт потенциальных нарушений постоянно меняется, и чтобы вовремя находить недопустимый контент, нам необходимо каждый месяц выкатывать в продакшн более 60 ML-моделей.

🤔 До внедрения нашего решения процесс создания модели состоял из таких шагов:
поиск данных → обработка → обучение → тюнинг → выкатка и управление инференсом в проде


Это трудоёмкий процесс, который требовал привлечения инженеров при создании и любых изменениях модели. Каждый шаг был сопряжён с ручной проверкой и контролем всех этапов.

💪 Мы решили всё ускорить и упростить. Для этого разработали систему, которая объединяет внутренние инструменты в единый пайплайн создания моделей.

Её ядро — это разметка за счёт LLM, ускоренная при помощи интерфейса для майнинга данных, сэмплирования и алгоритмов автоматического улучшения исходного промта.

Теперь для создания модели достаточно:
Сформировать набор условий на объявления, например, выбрать категорию или параметр → написать промпт в виде вопроса к содержанию с ответом true/false → запустить пайплайн


Можно, например, спросить: «Есть ли на фото или в тексте предложение о продаже <вставить недопустимый контент>?»

После разметки и обучения модель автоматически становится доступна в проде.


Решение позволяет управлять инференсом модели, например, менять пороги в онлайне или настраивать параметры работы. После изменений модель меняется прямо в проде за несколько минут! Это позволяет оперативно отвечать на любые новые нарушения.

Наличие UI даёт возможность всем членам команды создавать модели. Например, менеджеры уже самостоятельно тестируют систему и формируют успешные кейсы, где ML-модели, созданные за несколько минут, эффективно модерируют тысячи объявлений.
🔥2412👍51🌚1
Привет! С вами Артём и сегодня мы рассмотрим этот вопрос (↑), а ещё расскажем, почему в Авито нет дата сайентистов.

Для начала давайте разберёмся, что такое Data Science.

Это междисциплинарная область, объединяющая статистику, математику, программирование и аналитику для извлечения знаний и ценной информации из больших объёмов данных, превращая их в понятные выводы, прогнозы и решения для бизнеса, науки и других сфер.


Уже в 60-х к Data Science впервые относятся, как к отдельной науке, но полноценное признание приходит только в середине нулевых. За 15 лет с тех пор профессия стала более зрелой, и в ней появилась специализация.

Поэтому сейчас компании не ищут (или, по хорошему, не должны искать) дата сайентистов, а университеты и курсы их не обучают. Подробнее про это уже рассказывал Валера Бабушкин на видео и в презентации.

Итак, мы разобрались, что профессии дата сайентист не существует, так как это скорее собирательный образ, как слово «программист».

Теперь определим, какие DS-профессии или роли есть в Авито

👨‍💻 DS-инженер — специалист, который не просто делает fit-predict, а end-to-end отвечает за жизненный цикл модели: формирует датасет, обучает модель, оценивает качество на оффлайне и онлайне, выводит её в прод и мониторит перфоманс.

Сфера Data Science охватывает множество направлений (Classic ML/DL/NLP/CV/RecSys/RL/other), в которых требуется знание определённой предметной области. Поэтому специализация на самом деле ещё более глубокая, чем просто «DS-инженер». Например, название вакансии RecSys ML Engineer говорит о том, что ищут инженера, который в части ML будет заниматься рекомендациями.

👨‍💻 DS-исследователь ищет новые подходы, лучшие из которых перерождаются в статьи и подают на конференции, а потом передают на продукционализацию к DS-инженеру.

👨‍💻 Менеджер DS-продукта собирает и приоритизирует DS-гипотезы, организует работу команды из разработчиков, аналитиков и DS-инженеров.

👨‍💻 Аналитик данных занимается аналитическими исследованиями: генерирует гипотезы, анализирует A/B-эксперименты, а ещё самостоятельно планирует и запускает их.

👨‍💻 Инженер данных разрабатывает витрины от источника до потребителя, прорабатывает модели данных, занимается интеграцией и доработкой платформенных инструментов, создаёт инструменты для автоматизации.

👋 На этом на сегодня всё — спасибо, что читаете нас! Оставляйте реакции и предлагайте в комментариях вопросы по теме DS (в Авито и не только).

💚 Там же в комментариях сразу поделюсь дополнительными ссылками, которые помогут ещё лучше разобраться в data-ролях в Авито ↓
22👍12🔥6🥴1
Всем привет! На связи Данила Бочарников, DS-инженер из поиска Авито. Продолжаем разбирать новости из мира ML. Сегодня поговорим, как ИИ меняет образование прямо сейчас.

🧑‍🎓Без диплома, но в OpenAI
Традиционное образование теряет статус «обязательного» даже для задач PhD-уровня. Яркий пример: человек без высшего образования работает в OpenAI над Sora — одним из самых продвинутых ИИ для генерации видео. Он утверждает: «Всему можно научиться через ChatGPT». Нужна лишь целеустремлённость — и можно освоить любые фундаментальные знания.

🤝 Объединение гигантов онлайн-образования
Coursera и Udemy, которых ещё недавно называли «наследниками университетов», объединяются. Сумма сделки — $2.5 млрд. Зачем? Чтобы вместе ответить на вызов: роль ИИ в обучении растёт и необходимо быстро адаптировать контент.

🤔 Вопрос для размышления
Станет ли нормой отказ от бакалавриата, чтобы раньше стартовать в индустрии, а обучаться через ИИ-ассистентов?

🔥 — если да,
😱 — если нет.

Пишите своё мнение в комментариях!
P.S. Как вы сейчас учитесь: курсы, ИИ-помощники или смешанный подход?
😱34🔥16
Привет! С вами Андрей Пудовиков, DS Researcher из Авито. Летом моя коллега — Катя Солоднёва рассказывала про наш бенчмарк BAT — open-source датасет для тестирования автобиддинг-алгоритмов. Мы продолжаем развивать это направление и готовы поделиться крутой новостью!

Нашу работу про новый метод RobustBid приняли на A* конференцию AAMAS 2026! 🎉

О чём речь
Оптимальные автобиддинг-алгоритмы автоматически распределяют бюджет по аукционам. Они сильно зависят от оценок двух ключевых параметров:

CTR — вероятность клика по объявлению.
CVR — вероятность конверсии после клика, например, покупки товара.

Эти вероятности предсказывают ML-модели, и они могут ошибаться. Маленькая неточность в предсказании → отклонение от оптимальной ставки → потраченный бюджет и упущенная выгода. Как быть?

Как работает сейчас. Большинство существующих методов либо полностью игнорируют эту неопределённость, либо вводят сильные предположения только на один параметр.

Что предлагаем. RobustBid — алгоритм, который напрямую использует uncertainty из ML/DL моделей. Мы применили методы робастной оптимизации (robust optimization), чтобы найти такие формулы для расчёта ставки, которые будут устойчивы к ошибкам в предсказаниях CTR и CVR.

Проще говоря, научили алгоритм смотреть на предсказания как на «диапазон возможных значений», а не точных чисел. Формально это _uncertainty set_. После чего выбираем такую ставку, которая максимизирует конверсии даже для худшего значения внутри коридора.

Что получилось
📌 Аналитическое решение. Вывели «явную» формулу для бида с помощью методов робастной оптимизации и линейной алгебры.

📌 Универсальность. Алгоритм умеет работать с неопределённостью отдельно в CTR, отдельно в CVR, а также сразу в обеих — такое сделано впервые. 🤘

📌 Проверенная эффективность. Протестировали на синтетике, iPinYou и, конечно, на нашем BAT-бенчмарке. RobustBid стабильно показывает больше конверсий (TCV) и меньшую среднюю стоимость клика (CPC), относительно других робастных автобиддинговых методов.

Полезные ссылочки для самых любознательных
📄 Статья на Arxiv: Robust Autobidding for Noisy Conversion Prediction Models
📚 Топовый учебник по робастной оптимизации: Robust Optimization
🎯 Прошлый пост про BAT-бенчмарк

Теперь у нас есть не только реалистичный полигон для испытаний (BAT), но и продвинутый «бронебойный» алгоритм для него. Полный комплект! 🔥
🔥196👍5
Всем привет! На связи Алина Бабенко, Team Lead в Auction Efficiency. Иду к вам прямо с калибровок и они не выходят у меня из головы. Хочется написать про них, но лучше начну с Перформанс ревью, а о калибровках в следующий раз.

Зачем нужно ревью
Большим компаниям нужно точно понимать, что должен уметь сотрудник для конкретной роли. Например, у нас есть DS5, но при этом цели и задачи в командах Монетизации, Поиска и Автомодерации могут отличаться.

С помощью ревью хочется понять, что все хорошие результаты для DS5 в каждой команде выровнены друг с другом. При этом похвалить тех, кто поработал особенно хорошо, а если заслужил повышение грейда, — не пропустить это, а повысить. Подробности можно узнать из статьи, а в карточках я расскажу про этапы этого процесса. ↑

А в вашей компании проводят Перформанс ревью?

❤️ — да
💔 — нет
🗿 — а зачем?
24🗿7💔2
Всем привет! Меня зовут Саша Рыжков и я руковожу отделом R&D. На днях поговорил с коллегами из red_mad_robot о будущем исследований в AI.

Обсудили, почему комплексные системы из нескольких моделей вытеснят монолитные решения, и как R&D-центры превращаются в «фабрики адаптации» науки к бизнесу.

Приглашаю почитать

А как вы считаете, что ждёт исследования в AI?
👾 — будущее за ИИ-агентами!
😎 — R&D должен концентрироваться вокруг бизнес-задач
✍️ — расскажу в комментах, как оно правильно
😎22👾13🔥11👍1😱1
Чем окончился 2025 год для ML — узнали на Data Ёлке. Меня зовут Настя Павловская, и я хочу поделиться впечатлениями о митапе.

Для таких любителей рекомендательных систем, как я, программа была особенно насыщенной. Очень полезным оказался доклад Владимира Байкалова про состояние RecSys: классная структура, много ссылок на интересные статьи — пару сразу унесла в закладки.

Внимательно прослушала разбор решений VK RecSys Challenge.

Вынесла два простых, но важных вывода

1️⃣Бустинг всё ещё ого-го: если его аккуратно готовить и обучать, он может конкурировать с нейронками;
2️⃣ В ML решают не только алгоритмы, но и качество исполнения: воспроизводимые пайплайны и честный замер метрик — это базовая гигиена, без которой всё остальное может не сработать.

Круто было послушать и про другие направления
📌 про LLM на триллион параметров от Ant,
📌 историю, как модели для генерации кода «выучили» один из популярных бенчмарков — и как ребята из Сбера собрали альтернативу.

А самое далёкое от моей практики и очень увлекательное — рассказ, как собирают данные для обучения роботов и как устроены такие системы (это вам не кандидатов набрать и проранжировать 🙂).

Отдельный бонус: я интроверт, но всё равно ценю такие мероприятия за возможность поговорить с ребятами из индустрии, обсудить боли, обменяться опытом и расширить картину мира. В этот раз, например, чуть лучше поняла, как устроены рекомендации на маркетплейсах — тема, с которой раньше почти не пересекалась.

В итоге вернулась с митапа очень заряженной — спасибо спикерам, участникам и организаторам за классную атмосферу и полезные обсуждения.

💞 В закладки забрала эти статьи:
🔗 RecIS: Sparse to Dense, A Unified Training Framework for Recommendation Models

🔗 OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender

🔗 Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥4
Привет! Я тут последнее время хожу и проповедую Cursor и Claude Code 😀 А давайте на этот раз проведем опрос про AI для написания кода
👾6
Привычный ML устаревает, его место скоро займут новые технологии. Что происходит — расскажу я Саша Ледовский, DS-менеджер и один из авторов канала. Сегодня поговорим, как поменяются существующие ML-решения в компаниях и куда, на мой взгляд, мы двигаемся.

🤖 Вы скажете, что сейчас все работают над ассистентами. Это правда, и это огромный тренд. Но прямо сейчас уже есть много работающих ML-систем, которые часто имеют высокую критичность и влияние на бизнес. Что будет с ними?

Сейчас большая часть боевых решений построена на небольшом наборе проверенных технологий. Очень примерно:
📌 бустинги,
📌 берты с дообученными головами и LORA,
📌 CLIP эмбеддинги,
📌 векторный поиск,
📌 в поиске и рекомендациях ALS, DSSM и в крупных компаниях трансформеры типа Bert4Rec.

По моим наблюдениям, LLM-ки всё-таки кардинально изменили существующую расстановку сил. Сейчас их применение сдерживают в первую очередь цена и скорость ответа. Но я уверен, что через год-два в проде станет меньше бертов, промпт с большим контекстом вытеснит векторный поиск, появится LLM-ранжирование выдачи и произойдут другие похожие сдвиги.

Текущий паттерн работы DS инженера меняется. Если раньше расстановка была 95% ML/ 5% LLM. То теперь станет 50 на 50. Согласны?

❤️ — решительное да
💔 — да не, ерунда какая-то
👾 — вообще всё не так! А как надо — расскажу в комментариях
💔3629🤔4
Даже в такую погоду можно найти повод выйти из дома — Avito TeamLead Drinkup #4!

Приглашаем всех в наш офис на Лесной, чтобы понетворкать и обсудить метрики здоровья и перфоманса команды, продажу техдолга и использование AI-агентов на собеседованиях, а также поделиться личными кейсами из практики.

Приходите вы и коллег тоже зовите — ждём всех.

🕐 Когда: 17 февраля в 18:00
📍 Где: Москва, ул. Лесная, 7

Ссылка на регистрацию
🔥63🎉31
В предыдущие выходные заскочил на t-sync conf — мероприятие от Т-Банк. Термин «сonf» предполагает конференцию, но на деле это был необычный формат.

Не прозвучало ни одного доклада, зато были:
📌 хакатон,
📌 куча стендов,
📌 обсуждений и демо от Т-Банка, Сбера, Яндекса и других компаний и университетов.

Заглянуть на все стенды и пообщаться со всеми не смог. Даже в AI-контуре было довольно много общения для меня — не самого разговорчивого человека. Но ребята из Т-Банка очень интересно и подробно поделились своим внутряком:
— про LLM-платформу и, в частности, про RAG-платформу,
— о проблемах, которые уже решили, и до чего доберутся в будущем.

Всё это добро только для своих и, похоже, наружу не выйдет. А жаль — выглядит и звучит впечатляюще!

Вторая интересная активность, в которой я поучаствовал, — инженерные диалоги. Топы из Т-Банка, Сбера, Фланта подискутировали про AI в разработке: как меняются подходы к работе не только у разработчиков, но и у тестировщиков, и даже затронули проблемы найма (да, без волков не обошлось).

Из любопытного

Рафаел Тонаканян выдал инсайд, что в Сбере около 60% разработчиков используют ИИ-инструменты для кодинга, а среди наших подписчиков таких даже больше — горжусь 🤝

Одна из тем, которую подняли на дискуссии, — подходы в ИТ-инженерии возвращаются к истокам. Когда инженер отвечал за всё: от проектирования базы данных до выкатки сервисов в prod. А как вы считаете, мы вернёмся во времена фуллстеков-на-максималках?

❤️ — да
💔 — нет
🙏 — я тоже хочу на такую конфу!
15🙏9💔7
От сотен активных объявлений до сотен… миллионов — как за последние 10 лет эволюционировала разработка в Авито? Как мы пришли к платформизации? Чтобы ответить на эти вопросы, не хватит одной статьи. И поэтому наши коллеги сняли фильм 🎥

Посмотрите, чтобы узнать:
📌 как платформизация стала ответом на быстрый рост компании;
📌 какие собственные инструменты стали частью этого пути;
📌 как появились вертикали;
📌 какие вызовы стоят перед компанией сейчас.

YouTube
ВК Видео
RuTube
7🔥5👍1
Открываем цикл статей про собеседования рассказом о секции по ML-теории.

Вопросы на собеседовании можно разделить на два блока:
🟢Классический ML
🟢DL и специализированный ML

Эти вопросы могут попадать в разные секции, в зависимости от подхода компании:
🔵Объединение классического и специализированного ML
🔵Проведение отдельных секций для каждого блока

А теперь рассмотрим каждый из блоков по отдельности

Классический ML. Эту секцию нужно пройти каждому кандидату, который хочет устроиться на должность Data Science / ML-инженера. На секции проверяют базовые знания ML, без которых сложно выполнять рабочие обязанности, даже если на новой работе предстоит заниматься LLM.

Чтобы успешно пройти этот этап, нужно разбираться в следующих темах:
👉 Типы задач: обучение с учителем, без учителя, с частичным привлечением учителя и тд.
👉 Классы моделей: линейные, «деревянные», метрические, ансамбли, бустинги.
👉 Данные: их представление и качество, табличные данные, типы переменных и тд.
👉 Избранные вопросы: оптимизация, оффлайн-метрики, функции потерь, валидация, переобучение vs. недообучение, bias-variance trade-off, выбор лучших признаков, регуляризация, дисбаланс классов и тд.

DL и специализированный ML. Если кандидат будет работать с более узкими областями ML (NLP, CV, RL, TS, RecSys и тд), ему обязательно зададут соответствующие вопросы, чтобы понять насколько хорошо специалист разбирается в этих сферах.

Во всех областях сейчас активно используют методы глубокого обучения, поэтому ожидайте базовых вопросов по DL: про архитектуру, обучение, функции потерь, инициализацию весов, регуляризацию, оптимизацию, ускорение и тд.

Отметим, заучивание ответов на популярные вопросы — плохой подход! Хороший интервьюер всегда услышит отрепетированный ответ и глубже погрузится в тему, чтобы понять, когда кандидат «поплывёт». Поэтому рекомендую ещё до собеседования лучше изучить темы простых вопросов.

В этом, кстати, могут помочь Gen AI ассистенты — используйте их во время тренировки, но не на собеседовании (это сразу видно).

На этом всё. В следующий раз расскажем про секцию по программированию!

Остался опрос
Я изучаю новую информацию по-старинке: прохожу курсы, читаю книги, смотрю видео и самостоятельно программирую (и для подготовки к собеседованию). А вы?
👾 — Использую Gen AI
✍️ — Занимаюсь по-старинке

💞 Для подготовки к DS собеседованию я создал и поддерживаю репозиторий с материалами, поэтому переходите и прокачивайте знания по ML-теории и другим темам — теперь ваши шансы на успешное собеседование увеличились!
Please open Telegram to view this post
VIEW IN TELEGRAM
👾312810❤‍🔥6🔥1
Как метрики могут как спасти команду, так и разрушить её? 🤔

Мы пообщались с Егором Денисовым-Бланчем, исследователем из Стэнфордского университета и автором методологии измерения продуктивности. Он провёл собственное исследование и выяснил, что в IT-компаниях работает около 9,5% «инженеров-призраков» — тех, кто числится в штате, но фактически не имеет задач.

Как он это выяснил, зачем эта модель нужна руководителям и можно ли точно рассчитать продуктивность разработчика — узнайте в новом выпуске AviTalk ⬇️

YouTube
ВК
RuTube

P.S С каждого не «призрака» по реакции!
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥4👻3👍2👎2
Если вы до сих пор используете одну единственную модель для распознавания русской речи — вы либо гений, либо не знаете про релизы прошлого года, которые меняют наше представление о качестве опенсорс решений для ASR.

Всем привет! На связи Наташа Вареник, DS-инженер команды горизонтальных ML технологий в Авито, занимаюсь звуком, в частности ASR — автоматическим распознаванием речи.

Сегодня расскажу про открытые модели распознавания для русского языка. 2025 год оказался очень щедрым на релизы от российских компаний и лабораторий. И я считаю эти модели хорошими кандидатами для использования из коробки, если нужен быстрый старт и лицензия позволяет.

В области ASR на русском языке конкурируют несколько перспективных направлений: классические CTC и RNN-T Transducer модели, новые Audio LLM, оптимизированные под скорость версии больших моделей, а также проверенные временем инструментарии на базе Kaldi. Каждый из подходов занимает свою интересную нишу. Сравнительный анализ показываю в карточках ⬆️

Ссылки, если хотите узнать больше
GigaAM-v3
Borealis (Vikhr)
T-one CTC
Whisper Podlodka Turbo
Whisper Large-v3 Turbo
Семейство моделей Vosk
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1711👍9🔥4