Доска AI-объявлений
3.72K subscribers
269 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Всем привет! На связи Марк, DS Engineer в команде LLM. Недавно я вернулся из Стамбула, где проходил финал Yandex Cup 2025. В этом году мне удалось занять 2-е место в Analytics Track 🥈

🏁 Финал проходил в формате 5-часового контеста в стиле ICPC/IOAI. В задачах проверяются:
📌 навыки EDA,
📌 матстат,
📌 классические алгоритмы.

Весь пул из 5 задач я закрыл за 2 часа 6 минут. Важно было делать это быстро, поскольку штраф начислялся не только за попытки, но и за время сдачи.

Для меня этот вызов стал отличной возможностью проверить, как инженерный бэкграунд помогает в стрессовых условиях соревнований.

Как проходило соревнование

1️⃣ В первой части были задачи, где требовалась чистая математика и алгоритмическая база: я быстро закрыл блок с числами Каталана и две задачи на динамику и графы.

2️⃣ После начался самый трудозатратный этап — задача на прайсинг. Требовалось не просто построить модель, а выбить идеальный скор 10/10. На это ушло больше всего времени, так как приходилось детально прорабатывать каждый признак.

3️⃣ Финальным аккордом стала интересная задача на стыке статистики и разработки. Нужно было проверить адекватность модели через парный t-тест, а в случае неудачи — вычислить искажённый коэффициент и пересчитать его через МНК.

😵‍💫 Самым напряжённым моментом стал период после закрытия контеста. Пока мы гуляли по Стамбулу, жюри проводило ручное ревью всех решений.

Несколько участников вылетели из топа, так как их решения оказались «хаками» под конкретные тесты, а не общими алгоритмами. Из-за этого я продолжал волноваться даже с готовым результатом, понимая, что в таких соревнованиях чистота кода важна так же, как и скор на публичном лидерборде.

🇹🇷 Сам Стамбул оставил крутейшее впечатление и помог немного переключиться от напряжённого соревнования. Удалось и по Босфору на кораблике поплавать, и побродить по Истикляль.

Кстати, своим «секретным оружием» в этом финале я считаю чашку очень крепкого кофе, которым меня угостил добрый турок прямо перед стартом. Кажется, именно этот заряд бодрости помог сохранить фокус до последней минуты.

Что в итоге
Поездка получилась отличным миксом из жёсткого технического челленджа и крутого отдыха. Если хотите узнать детали по задачам или есть вопросы, как мы в Авито используем похожие подходы — залетайте в комментарии! 👇
🔥478❤‍🔥21
Расширения для Visual Studio Code. Часть 2

Привет! С вами Артём. В прошлый раз мы рассматривали (в основном) расширения для форматирования ĸода. В этот раз я предложу новые инструменты, ĸоторые помогут быть продуĸтивнее и упростят повседневную работу.

Давайте сразу перейдём ĸ ĸарточĸам ↑, а потом возвращайтесь, чтобы установить понравившиеся расширения 🙂

Прямые ссылĸи на расширения:
Git Web Links
Markdown All in One
Markdown PDF
markdownlint
Rainbow CSV
Word Counter

Нравится рубрика? Ставьте 🤍 под постом и подписывайтесь на ĸанал (если вы ещё не подписаны и читаете этот пост), а мы продолжим развивать это направление!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍7🔥5🥰1
Всем привет! Я Настя Рысьмятова и спешу рассказать, что мы с командой запустили курс по LLM, и уже прочитали его в магистратуре Авито в МФТИ🔔

LLM — слишком новая технология, поэтому в большинстве университетов программы обновиться не успели. Мы решили это исправить и разработали курс, в котором собрали самую интересную информацию по обучению и инференсу LLM. Всё, о чём рассказываем — реально используем в работе.

⚡️Курс опирается на современную практику, объясняет, как устроены LLM и как с ними работать в системах.

Что разбираем:

🔘Историю развития LLM, терминологию, области применения, этапы обучения, архитектуру, Attention mechanism — MHA, MQA, GQA, MLA.

🔘Какие бывают источники данных и пайплайны фильтрации, этапы обучения токенизатора, процесс запуска претрейна.

🔘CPU и GPU, внутренние особенности GPU, зачем нужно multi-gpu обучение, различия применяемых в обучении программных и аппаратных технологий, виды параллелизмов.

🔘Роль SFT в alignment; отличие от RLHF/DPO.

🔘Полный файнтюн и LoRa и другие низкоранговые адаптации.

🔘RLHF и как применяем его в Авито.

🔘Ускорение инференса, рассказываем, что такое continuous batching, префикс кэширование и kv cache, page attention, спекулятивный декодинг.

🔘Сжатие моделей: квантизация.

🔘Что такое агенты, предпосылки появления агентов, популярные «архитектуры» АС, фреймворки, best practices.

🔘VLM.

🔘Альтернативы LLM: SSM (Mamba, Jamba), RWKV, titans, BLT, llada.

🤩 В будущем будем читать этот курс в Академии Аналитиков Авито.
Please open Telegram to view this post
VIEW IN TELEGRAM
31🤩11🔥8💅3😎1
Всем привет! Год заканчивается, поэтому мы решили оглянуться и посмотреть как он прошёл.

Чаще всего мы рассказывали вам про LLM. Но не забывали про кейсы, техники обучения и инференса на кластерах, метрики, монетизацию и оптимизацию ранжирования. Разбирали статьи и делились новостями с конференций. Давали практические гайды!

За всё время вы подарили нам почти 3 000 реакций, около 300 000 просмотров и 2 700 репостов. Вы самые крутые подписчики в мире, спасибо!

Заметили, что больше всего вам понравились посты от Насти Рысьмятовой про LLM-команду и нашу модель A-vibe. Продолжим в том же духе 💪

Но, может быть, вам хочется чего-то ещё? Расскажите, о чём из мира Data Science хотите читать в будущем году?

Наша команда поздравляет вас с Новым годом, желает всего самого наилучшего и успехов в работе с вашими моделями!

🕕 🕙🕘🕥♣️🕚 🕤🕘🕣🕘🕚 ❗️ 🔔🔔🔔
Please open Telegram to view this post
VIEW IN TELEGRAM
24🔥72
Народ, всем привет! Как ваши праздники? 👋

Лично я в праздники не притрагиваюсь к основной работе, но для счастья в жизни прохожу один курс. Как у вас?
🐳9💔1
Первый челлендж в новом году 🚀

Надеемся, все хорошо отдохнули и готовы к новым рабочим подвигам. Держите тест от нашей DS-команды, который поможет размяться⚡️

Оцените свой профессиональный уровень и узнаете, сколько работодатели готовы за него платить.

Тест позволит:
➡️ получить честную оценку навыков, как в перф. ревью, но без собеседования;
➡️ понять свои сильные стороны и зоны роста;
➡️ узнать возможный уровень оплаты на основе данных российских ИТ-компаний.

Разумеется, к упражнению можно подготовиться. Мы заранее собрали материалы, чтобы вы не тратили время на поиски. На странице теста найдёте курсы, статьи и видеодоклады — изучи́те их, чтобы показать лучший результат 🤟

Ловите ссылку на тест. После прохождения бонусом получите повышенный шанс попасть в команду Авито 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
10
Карьерный дайджест для тех, кто уже закончил праздновать

Новые возможности в новом году 🔔🔔🔔 Собрали свежие вакансии, чтобы найти классных ребят. Пройдите тест из поста выше, чтобы увеличить вероятность попасть к нам 😀 Вот кого мы ищем:

Старший Data Scientist в команду антифрода

Что надо делать:
➡️Разрабатывать модели, которые будут искать нарушения в коммуникациях контура Авито,
➡️Разбираться, в какие пайплайны можно эффективно встраивать модели,
➡️Оценивать влияние на продуктовые метрики команды.
Узнать детали и откликнуться

Старший Data Scientist в команду Поиска

Что надо делать:
➡️Улучшать векторный поиск,
➡️Работать с Deep learning и LLM-моделями,
➡️Разрабатывать и развивать кандидатогенераторы, которые влияют на ключевые метрики и пользовательский опыт.

Это работа на стыке данных, ML и продукта с продакшен-моделями и A/B-экспериментами.
Узнать детали и откликнуться

Старший Data Scientist в команду Недвижимости

Нужен специалист с сильной DS-экспертизой для усиления команды новостроек.

Что надо делать:
➡️Обеспечивать максимально точный и удобный подбор предложений для каждого клиента,
➡️Повышать конверсию в сделки,
➡️Помогать застройщикам достигать целевых показателей по отгрузке лидов.
Узнать детали и откликнуться

Старший Data Scientist в команду поискового ранжирования

Что надо делать:
➡️Разрабатывать и внедрять персонализированное ранжирование поисковой выдачи,
➡️Внедрять ML-модели в новые области продукта,
➡️Совершенствовать алгоритмы векторного поиска и механизмы управления ликвидностью, чтобы покупатели были довольны сервисом.
Узнать детали и откликнуться

Старший Data Scientist в команду Автоматизации поддержки

Что надо делать:
➡️Разрабатывать и внедрять модели классификации обращений (500+ тем),
➡️Улучшать существующие ML- и эвристические решения,
➡️Настраивать сбор и контроль качества разметки,
➡️Запускать LLM-агентов для автоматизации поддержки,
➡️Проводить A/B-тесты и оценивать эффективность решений по ML- и бизнес-метрикам.
Узнать детали и откликнуться

Старший Data Scientist

Что надо делать:
➡️Создавать сервисы поиска и рекомендаций с нуля,
➡️Собирать и размечать датасеты с помощью LLM,
➡️Обучать ранкеры, эмбеддинги и кандидатогенераторы,
➡️Разрабатывать систему метрик для офлайн- и онлайн-оценки качества моделей.
Узнать детали и откликнуться

Это не все специалисты, которых мы ищем. Больше вакансий можно найти на карьерном сайте Авито 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
135🔥3
Всем привет! Меня зовут Серёжа Попов и я хочу поговорить с вами про Юргена Шмидхубера — одного из пионеров Deep Learning. Он участвовал в создании LSTM, автор многочисленных работ про архитектуру и обучение нейросетей. Но в культуре вокруг ML он часто фигурирует не просто как ресёрчер, а как «тот самый учёный, который утверждает, что всё придумал ещё в 90‑х».

Почему ругаются в науке
Всё дело в «крёстных отцах» Deep Learning, которые получили Премию Тьюринга (аналог Нобелевки для информатики). Хинтон, ЛеКун и Бенджио получили заслуженное признание в массовой культуре, но Шмидхубера, который обучал нейронки до того, как это стало мейнстримом, обошли стороной.

Недовольство обосновано ещё и тем, что Шмидхубер действительно сделал значительный вклад в развитие ИИ, но в некоторых ключевых работах «крёстных отцов» его prior work не процитировали. Авторы работ не согласны, что цитаты нужны, поэтому в X регулярно вспыхивают публичные пикировки, а Шмидхубер документирует и разносит в своём блоге доводы оппонентов.

В чём плюс конфликтов об ИИ
За спорами интересно наблюдать, в них подсвечиваются разные взгляды на архитектуру нейросетей, а история развития ИИ пополняется именами, которые публика могла забыть. Так, Шмидхубер цитирует публикации советских учёных Алексея Ивахненко и Валентина Лапы, в которых были описаны основы работы многослойных нейросетей!

Подобные конфликты о первенстве в важных научных открытиях были всегда, например, спор между Ньютоном и Лейбницем более 300 лет назад. Сейчас Шмидхубер, по сути, играет роль защитника справедливой атрибуции: требует честно указывать авторов и не забывать старые работы. Но есть и те, кто критикует агрессивность его подхода. Чего только стоит публичная перепалка на NIPS 2016!

И в чём минусы
Из-за таких курьёзов вокруг Шмидхубера и сформировался образ того, кто на любую научную статью готов привести свои работы двадцатилетней давности и кого обязательно нужно процитировать, чтобы потом не столкнуться с обвинениями в плагиате, даже если вы занимаетесь геологией, а не ML (шутка!).

Предлагаю вам оценить небольшую подборку мемов про Юргена Шмидхубера и поделиться своими в комментариях 😁
😁15🔥9😱1
Привет! Меня зовут Илья Чумак. Сегодня хочу рассказать, как мы автоматизировали создание моделей модерации в Авито.

Модерация — это область, в которой важно быть гибкими. Ландшафт потенциальных нарушений постоянно меняется, и чтобы вовремя находить недопустимый контент, нам необходимо каждый месяц выкатывать в продакшн более 60 ML-моделей.

🤔 До внедрения нашего решения процесс создания модели состоял из таких шагов:
поиск данных → обработка → обучение → тюнинг → выкатка и управление инференсом в проде


Это трудоёмкий процесс, который требовал привлечения инженеров при создании и любых изменениях модели. Каждый шаг был сопряжён с ручной проверкой и контролем всех этапов.

💪 Мы решили всё ускорить и упростить. Для этого разработали систему, которая объединяет внутренние инструменты в единый пайплайн создания моделей.

Её ядро — это разметка за счёт LLM, ускоренная при помощи интерфейса для майнинга данных, сэмплирования и алгоритмов автоматического улучшения исходного промта.

Теперь для создания модели достаточно:
Сформировать набор условий на объявления, например, выбрать категорию или параметр → написать промпт в виде вопроса к содержанию с ответом true/false → запустить пайплайн


Можно, например, спросить: «Есть ли на фото или в тексте предложение о продаже <вставить недопустимый контент>?»

После разметки и обучения модель автоматически становится доступна в проде.


Решение позволяет управлять инференсом модели, например, менять пороги в онлайне или настраивать параметры работы. После изменений модель меняется прямо в проде за несколько минут! Это позволяет оперативно отвечать на любые новые нарушения.

Наличие UI даёт возможность всем членам команды создавать модели. Например, менеджеры уже самостоятельно тестируют систему и формируют успешные кейсы, где ML-модели, созданные за несколько минут, эффективно модерируют тысячи объявлений.
🔥2412👍51🌚1
Привет! С вами Артём и сегодня мы рассмотрим этот вопрос (↑), а ещё расскажем, почему в Авито нет дата сайентистов.

Для начала давайте разберёмся, что такое Data Science.

Это междисциплинарная область, объединяющая статистику, математику, программирование и аналитику для извлечения знаний и ценной информации из больших объёмов данных, превращая их в понятные выводы, прогнозы и решения для бизнеса, науки и других сфер.


Уже в 60-х к Data Science впервые относятся, как к отдельной науке, но полноценное признание приходит только в середине нулевых. За 15 лет с тех пор профессия стала более зрелой, и в ней появилась специализация.

Поэтому сейчас компании не ищут (или, по хорошему, не должны искать) дата сайентистов, а университеты и курсы их не обучают. Подробнее про это уже рассказывал Валера Бабушкин на видео и в презентации.

Итак, мы разобрались, что профессии дата сайентист не существует, так как это скорее собирательный образ, как слово «программист».

Теперь определим, какие DS-профессии или роли есть в Авито

👨‍💻 DS-инженер — специалист, который не просто делает fit-predict, а end-to-end отвечает за жизненный цикл модели: формирует датасет, обучает модель, оценивает качество на оффлайне и онлайне, выводит её в прод и мониторит перфоманс.

Сфера Data Science охватывает множество направлений (Classic ML/DL/NLP/CV/RecSys/RL/other), в которых требуется знание определённой предметной области. Поэтому специализация на самом деле ещё более глубокая, чем просто «DS-инженер». Например, название вакансии RecSys ML Engineer говорит о том, что ищут инженера, который в части ML будет заниматься рекомендациями.

👨‍💻 DS-исследователь ищет новые подходы, лучшие из которых перерождаются в статьи и подают на конференции, а потом передают на продукционализацию к DS-инженеру.

👨‍💻 Менеджер DS-продукта собирает и приоритизирует DS-гипотезы, организует работу команды из разработчиков, аналитиков и DS-инженеров.

👨‍💻 Аналитик данных занимается аналитическими исследованиями: генерирует гипотезы, анализирует A/B-эксперименты, а ещё самостоятельно планирует и запускает их.

👨‍💻 Инженер данных разрабатывает витрины от источника до потребителя, прорабатывает модели данных, занимается интеграцией и доработкой платформенных инструментов, создаёт инструменты для автоматизации.

👋 На этом на сегодня всё — спасибо, что читаете нас! Оставляйте реакции и предлагайте в комментариях вопросы по теме DS (в Авито и не только).

💚 Там же в комментариях сразу поделюсь дополнительными ссылками, которые помогут ещё лучше разобраться в data-ролях в Авито ↓
22👍12🔥6🥴1
Всем привет! На связи Данила Бочарников, DS-инженер из поиска Авито. Продолжаем разбирать новости из мира ML. Сегодня поговорим, как ИИ меняет образование прямо сейчас.

🧑‍🎓Без диплома, но в OpenAI
Традиционное образование теряет статус «обязательного» даже для задач PhD-уровня. Яркий пример: человек без высшего образования работает в OpenAI над Sora — одним из самых продвинутых ИИ для генерации видео. Он утверждает: «Всему можно научиться через ChatGPT». Нужна лишь целеустремлённость — и можно освоить любые фундаментальные знания.

🤝 Объединение гигантов онлайн-образования
Coursera и Udemy, которых ещё недавно называли «наследниками университетов», объединяются. Сумма сделки — $2.5 млрд. Зачем? Чтобы вместе ответить на вызов: роль ИИ в обучении растёт и необходимо быстро адаптировать контент.

🤔 Вопрос для размышления
Станет ли нормой отказ от бакалавриата, чтобы раньше стартовать в индустрии, а обучаться через ИИ-ассистентов?

🔥 — если да,
😱 — если нет.

Пишите своё мнение в комментариях!
P.S. Как вы сейчас учитесь: курсы, ИИ-помощники или смешанный подход?
😱34🔥16
Привет! С вами Андрей Пудовиков, DS Researcher из Авито. Летом моя коллега — Катя Солоднёва рассказывала про наш бенчмарк BAT — open-source датасет для тестирования автобиддинг-алгоритмов. Мы продолжаем развивать это направление и готовы поделиться крутой новостью!

Нашу работу про новый метод RobustBid приняли на A* конференцию AAMAS 2026! 🎉

О чём речь
Оптимальные автобиддинг-алгоритмы автоматически распределяют бюджет по аукционам. Они сильно зависят от оценок двух ключевых параметров:

CTR — вероятность клика по объявлению.
CVR — вероятность конверсии после клика, например, покупки товара.

Эти вероятности предсказывают ML-модели, и они могут ошибаться. Маленькая неточность в предсказании → отклонение от оптимальной ставки → потраченный бюджет и упущенная выгода. Как быть?

Как работает сейчас. Большинство существующих методов либо полностью игнорируют эту неопределённость, либо вводят сильные предположения только на один параметр.

Что предлагаем. RobustBid — алгоритм, который напрямую использует uncertainty из ML/DL моделей. Мы применили методы робастной оптимизации (robust optimization), чтобы найти такие формулы для расчёта ставки, которые будут устойчивы к ошибкам в предсказаниях CTR и CVR.

Проще говоря, научили алгоритм смотреть на предсказания как на «диапазон возможных значений», а не точных чисел. Формально это _uncertainty set_. После чего выбираем такую ставку, которая максимизирует конверсии даже для худшего значения внутри коридора.

Что получилось
📌 Аналитическое решение. Вывели «явную» формулу для бида с помощью методов робастной оптимизации и линейной алгебры.

📌 Универсальность. Алгоритм умеет работать с неопределённостью отдельно в CTR, отдельно в CVR, а также сразу в обеих — такое сделано впервые. 🤘

📌 Проверенная эффективность. Протестировали на синтетике, iPinYou и, конечно, на нашем BAT-бенчмарке. RobustBid стабильно показывает больше конверсий (TCV) и меньшую среднюю стоимость клика (CPC), относительно других робастных автобиддинговых методов.

Полезные ссылочки для самых любознательных
📄 Статья на Arxiv: Robust Autobidding for Noisy Conversion Prediction Models
📚 Топовый учебник по робастной оптимизации: Robust Optimization
🎯 Прошлый пост про BAT-бенчмарк

Теперь у нас есть не только реалистичный полигон для испытаний (BAT), но и продвинутый «бронебойный» алгоритм для него. Полный комплект! 🔥
🔥196👍5
Всем привет! На связи Алина Бабенко, Team Lead в Auction Efficiency. Иду к вам прямо с калибровок и они не выходят у меня из головы. Хочется написать про них, но лучше начну с Перформанс ревью, а о калибровках в следующий раз.

Зачем нужно ревью
Большим компаниям нужно точно понимать, что должен уметь сотрудник для конкретной роли. Например, у нас есть DS5, но при этом цели и задачи в командах Монетизации, Поиска и Автомодерации могут отличаться.

С помощью ревью хочется понять, что все хорошие результаты для DS5 в каждой команде выровнены друг с другом. При этом похвалить тех, кто поработал особенно хорошо, а если заслужил повышение грейда, — не пропустить это, а повысить. Подробности можно узнать из статьи, а в карточках я расскажу про этапы этого процесса. ↑

А в вашей компании проводят Перформанс ревью?

❤️ — да
💔 — нет
🗿 — а зачем?
24🗿7💔2