Доска AI-объявлений
3.72K subscribers
269 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Народ, всем привет! Как ваши праздники? 👋

Лично я в праздники не притрагиваюсь к основной работе, но для счастья в жизни прохожу один курс. Как у вас?
🐳9💔1
Первый челлендж в новом году 🚀

Надеемся, все хорошо отдохнули и готовы к новым рабочим подвигам. Держите тест от нашей DS-команды, который поможет размяться⚡️

Оцените свой профессиональный уровень и узнаете, сколько работодатели готовы за него платить.

Тест позволит:
➡️ получить честную оценку навыков, как в перф. ревью, но без собеседования;
➡️ понять свои сильные стороны и зоны роста;
➡️ узнать возможный уровень оплаты на основе данных российских ИТ-компаний.

Разумеется, к упражнению можно подготовиться. Мы заранее собрали материалы, чтобы вы не тратили время на поиски. На странице теста найдёте курсы, статьи и видеодоклады — изучи́те их, чтобы показать лучший результат 🤟

Ловите ссылку на тест. После прохождения бонусом получите повышенный шанс попасть в команду Авито 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
10
Карьерный дайджест для тех, кто уже закончил праздновать

Новые возможности в новом году 🔔🔔🔔 Собрали свежие вакансии, чтобы найти классных ребят. Пройдите тест из поста выше, чтобы увеличить вероятность попасть к нам 😀 Вот кого мы ищем:

Старший Data Scientist в команду антифрода

Что надо делать:
➡️Разрабатывать модели, которые будут искать нарушения в коммуникациях контура Авито,
➡️Разбираться, в какие пайплайны можно эффективно встраивать модели,
➡️Оценивать влияние на продуктовые метрики команды.
Узнать детали и откликнуться

Старший Data Scientist в команду Поиска

Что надо делать:
➡️Улучшать векторный поиск,
➡️Работать с Deep learning и LLM-моделями,
➡️Разрабатывать и развивать кандидатогенераторы, которые влияют на ключевые метрики и пользовательский опыт.

Это работа на стыке данных, ML и продукта с продакшен-моделями и A/B-экспериментами.
Узнать детали и откликнуться

Старший Data Scientist в команду Недвижимости

Нужен специалист с сильной DS-экспертизой для усиления команды новостроек.

Что надо делать:
➡️Обеспечивать максимально точный и удобный подбор предложений для каждого клиента,
➡️Повышать конверсию в сделки,
➡️Помогать застройщикам достигать целевых показателей по отгрузке лидов.
Узнать детали и откликнуться

Старший Data Scientist в команду поискового ранжирования

Что надо делать:
➡️Разрабатывать и внедрять персонализированное ранжирование поисковой выдачи,
➡️Внедрять ML-модели в новые области продукта,
➡️Совершенствовать алгоритмы векторного поиска и механизмы управления ликвидностью, чтобы покупатели были довольны сервисом.
Узнать детали и откликнуться

Старший Data Scientist в команду Автоматизации поддержки

Что надо делать:
➡️Разрабатывать и внедрять модели классификации обращений (500+ тем),
➡️Улучшать существующие ML- и эвристические решения,
➡️Настраивать сбор и контроль качества разметки,
➡️Запускать LLM-агентов для автоматизации поддержки,
➡️Проводить A/B-тесты и оценивать эффективность решений по ML- и бизнес-метрикам.
Узнать детали и откликнуться

Старший Data Scientist

Что надо делать:
➡️Создавать сервисы поиска и рекомендаций с нуля,
➡️Собирать и размечать датасеты с помощью LLM,
➡️Обучать ранкеры, эмбеддинги и кандидатогенераторы,
➡️Разрабатывать систему метрик для офлайн- и онлайн-оценки качества моделей.
Узнать детали и откликнуться

Это не все специалисты, которых мы ищем. Больше вакансий можно найти на карьерном сайте Авито 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
135🔥3
Всем привет! Меня зовут Серёжа Попов и я хочу поговорить с вами про Юргена Шмидхубера — одного из пионеров Deep Learning. Он участвовал в создании LSTM, автор многочисленных работ про архитектуру и обучение нейросетей. Но в культуре вокруг ML он часто фигурирует не просто как ресёрчер, а как «тот самый учёный, который утверждает, что всё придумал ещё в 90‑х».

Почему ругаются в науке
Всё дело в «крёстных отцах» Deep Learning, которые получили Премию Тьюринга (аналог Нобелевки для информатики). Хинтон, ЛеКун и Бенджио получили заслуженное признание в массовой культуре, но Шмидхубера, который обучал нейронки до того, как это стало мейнстримом, обошли стороной.

Недовольство обосновано ещё и тем, что Шмидхубер действительно сделал значительный вклад в развитие ИИ, но в некоторых ключевых работах «крёстных отцов» его prior work не процитировали. Авторы работ не согласны, что цитаты нужны, поэтому в X регулярно вспыхивают публичные пикировки, а Шмидхубер документирует и разносит в своём блоге доводы оппонентов.

В чём плюс конфликтов об ИИ
За спорами интересно наблюдать, в них подсвечиваются разные взгляды на архитектуру нейросетей, а история развития ИИ пополняется именами, которые публика могла забыть. Так, Шмидхубер цитирует публикации советских учёных Алексея Ивахненко и Валентина Лапы, в которых были описаны основы работы многослойных нейросетей!

Подобные конфликты о первенстве в важных научных открытиях были всегда, например, спор между Ньютоном и Лейбницем более 300 лет назад. Сейчас Шмидхубер, по сути, играет роль защитника справедливой атрибуции: требует честно указывать авторов и не забывать старые работы. Но есть и те, кто критикует агрессивность его подхода. Чего только стоит публичная перепалка на NIPS 2016!

И в чём минусы
Из-за таких курьёзов вокруг Шмидхубера и сформировался образ того, кто на любую научную статью готов привести свои работы двадцатилетней давности и кого обязательно нужно процитировать, чтобы потом не столкнуться с обвинениями в плагиате, даже если вы занимаетесь геологией, а не ML (шутка!).

Предлагаю вам оценить небольшую подборку мемов про Юргена Шмидхубера и поделиться своими в комментариях 😁
😁15🔥9😱1
Привет! Меня зовут Илья Чумак. Сегодня хочу рассказать, как мы автоматизировали создание моделей модерации в Авито.

Модерация — это область, в которой важно быть гибкими. Ландшафт потенциальных нарушений постоянно меняется, и чтобы вовремя находить недопустимый контент, нам необходимо каждый месяц выкатывать в продакшн более 60 ML-моделей.

🤔 До внедрения нашего решения процесс создания модели состоял из таких шагов:
поиск данных → обработка → обучение → тюнинг → выкатка и управление инференсом в проде


Это трудоёмкий процесс, который требовал привлечения инженеров при создании и любых изменениях модели. Каждый шаг был сопряжён с ручной проверкой и контролем всех этапов.

💪 Мы решили всё ускорить и упростить. Для этого разработали систему, которая объединяет внутренние инструменты в единый пайплайн создания моделей.

Её ядро — это разметка за счёт LLM, ускоренная при помощи интерфейса для майнинга данных, сэмплирования и алгоритмов автоматического улучшения исходного промта.

Теперь для создания модели достаточно:
Сформировать набор условий на объявления, например, выбрать категорию или параметр → написать промпт в виде вопроса к содержанию с ответом true/false → запустить пайплайн


Можно, например, спросить: «Есть ли на фото или в тексте предложение о продаже <вставить недопустимый контент>?»

После разметки и обучения модель автоматически становится доступна в проде.


Решение позволяет управлять инференсом модели, например, менять пороги в онлайне или настраивать параметры работы. После изменений модель меняется прямо в проде за несколько минут! Это позволяет оперативно отвечать на любые новые нарушения.

Наличие UI даёт возможность всем членам команды создавать модели. Например, менеджеры уже самостоятельно тестируют систему и формируют успешные кейсы, где ML-модели, созданные за несколько минут, эффективно модерируют тысячи объявлений.
🔥2412👍51🌚1
Привет! С вами Артём и сегодня мы рассмотрим этот вопрос (↑), а ещё расскажем, почему в Авито нет дата сайентистов.

Для начала давайте разберёмся, что такое Data Science.

Это междисциплинарная область, объединяющая статистику, математику, программирование и аналитику для извлечения знаний и ценной информации из больших объёмов данных, превращая их в понятные выводы, прогнозы и решения для бизнеса, науки и других сфер.


Уже в 60-х к Data Science впервые относятся, как к отдельной науке, но полноценное признание приходит только в середине нулевых. За 15 лет с тех пор профессия стала более зрелой, и в ней появилась специализация.

Поэтому сейчас компании не ищут (или, по хорошему, не должны искать) дата сайентистов, а университеты и курсы их не обучают. Подробнее про это уже рассказывал Валера Бабушкин на видео и в презентации.

Итак, мы разобрались, что профессии дата сайентист не существует, так как это скорее собирательный образ, как слово «программист».

Теперь определим, какие DS-профессии или роли есть в Авито

👨‍💻 DS-инженер — специалист, который не просто делает fit-predict, а end-to-end отвечает за жизненный цикл модели: формирует датасет, обучает модель, оценивает качество на оффлайне и онлайне, выводит её в прод и мониторит перфоманс.

Сфера Data Science охватывает множество направлений (Classic ML/DL/NLP/CV/RecSys/RL/other), в которых требуется знание определённой предметной области. Поэтому специализация на самом деле ещё более глубокая, чем просто «DS-инженер». Например, название вакансии RecSys ML Engineer говорит о том, что ищут инженера, который в части ML будет заниматься рекомендациями.

👨‍💻 DS-исследователь ищет новые подходы, лучшие из которых перерождаются в статьи и подают на конференции, а потом передают на продукционализацию к DS-инженеру.

👨‍💻 Менеджер DS-продукта собирает и приоритизирует DS-гипотезы, организует работу команды из разработчиков, аналитиков и DS-инженеров.

👨‍💻 Аналитик данных занимается аналитическими исследованиями: генерирует гипотезы, анализирует A/B-эксперименты, а ещё самостоятельно планирует и запускает их.

👨‍💻 Инженер данных разрабатывает витрины от источника до потребителя, прорабатывает модели данных, занимается интеграцией и доработкой платформенных инструментов, создаёт инструменты для автоматизации.

👋 На этом на сегодня всё — спасибо, что читаете нас! Оставляйте реакции и предлагайте в комментариях вопросы по теме DS (в Авито и не только).

💚 Там же в комментариях сразу поделюсь дополнительными ссылками, которые помогут ещё лучше разобраться в data-ролях в Авито ↓
22👍12🔥6🥴1
Всем привет! На связи Данила Бочарников, DS-инженер из поиска Авито. Продолжаем разбирать новости из мира ML. Сегодня поговорим, как ИИ меняет образование прямо сейчас.

🧑‍🎓Без диплома, но в OpenAI
Традиционное образование теряет статус «обязательного» даже для задач PhD-уровня. Яркий пример: человек без высшего образования работает в OpenAI над Sora — одним из самых продвинутых ИИ для генерации видео. Он утверждает: «Всему можно научиться через ChatGPT». Нужна лишь целеустремлённость — и можно освоить любые фундаментальные знания.

🤝 Объединение гигантов онлайн-образования
Coursera и Udemy, которых ещё недавно называли «наследниками университетов», объединяются. Сумма сделки — $2.5 млрд. Зачем? Чтобы вместе ответить на вызов: роль ИИ в обучении растёт и необходимо быстро адаптировать контент.

🤔 Вопрос для размышления
Станет ли нормой отказ от бакалавриата, чтобы раньше стартовать в индустрии, а обучаться через ИИ-ассистентов?

🔥 — если да,
😱 — если нет.

Пишите своё мнение в комментариях!
P.S. Как вы сейчас учитесь: курсы, ИИ-помощники или смешанный подход?
😱34🔥16
Привет! С вами Андрей Пудовиков, DS Researcher из Авито. Летом моя коллега — Катя Солоднёва рассказывала про наш бенчмарк BAT — open-source датасет для тестирования автобиддинг-алгоритмов. Мы продолжаем развивать это направление и готовы поделиться крутой новостью!

Нашу работу про новый метод RobustBid приняли на A* конференцию AAMAS 2026! 🎉

О чём речь
Оптимальные автобиддинг-алгоритмы автоматически распределяют бюджет по аукционам. Они сильно зависят от оценок двух ключевых параметров:

CTR — вероятность клика по объявлению.
CVR — вероятность конверсии после клика, например, покупки товара.

Эти вероятности предсказывают ML-модели, и они могут ошибаться. Маленькая неточность в предсказании → отклонение от оптимальной ставки → потраченный бюджет и упущенная выгода. Как быть?

Как работает сейчас. Большинство существующих методов либо полностью игнорируют эту неопределённость, либо вводят сильные предположения только на один параметр.

Что предлагаем. RobustBid — алгоритм, который напрямую использует uncertainty из ML/DL моделей. Мы применили методы робастной оптимизации (robust optimization), чтобы найти такие формулы для расчёта ставки, которые будут устойчивы к ошибкам в предсказаниях CTR и CVR.

Проще говоря, научили алгоритм смотреть на предсказания как на «диапазон возможных значений», а не точных чисел. Формально это _uncertainty set_. После чего выбираем такую ставку, которая максимизирует конверсии даже для худшего значения внутри коридора.

Что получилось
📌 Аналитическое решение. Вывели «явную» формулу для бида с помощью методов робастной оптимизации и линейной алгебры.

📌 Универсальность. Алгоритм умеет работать с неопределённостью отдельно в CTR, отдельно в CVR, а также сразу в обеих — такое сделано впервые. 🤘

📌 Проверенная эффективность. Протестировали на синтетике, iPinYou и, конечно, на нашем BAT-бенчмарке. RobustBid стабильно показывает больше конверсий (TCV) и меньшую среднюю стоимость клика (CPC), относительно других робастных автобиддинговых методов.

Полезные ссылочки для самых любознательных
📄 Статья на Arxiv: Robust Autobidding for Noisy Conversion Prediction Models
📚 Топовый учебник по робастной оптимизации: Robust Optimization
🎯 Прошлый пост про BAT-бенчмарк

Теперь у нас есть не только реалистичный полигон для испытаний (BAT), но и продвинутый «бронебойный» алгоритм для него. Полный комплект! 🔥
🔥196👍5
Всем привет! На связи Алина Бабенко, Team Lead в Auction Efficiency. Иду к вам прямо с калибровок и они не выходят у меня из головы. Хочется написать про них, но лучше начну с Перформанс ревью, а о калибровках в следующий раз.

Зачем нужно ревью
Большим компаниям нужно точно понимать, что должен уметь сотрудник для конкретной роли. Например, у нас есть DS5, но при этом цели и задачи в командах Монетизации, Поиска и Автомодерации могут отличаться.

С помощью ревью хочется понять, что все хорошие результаты для DS5 в каждой команде выровнены друг с другом. При этом похвалить тех, кто поработал особенно хорошо, а если заслужил повышение грейда, — не пропустить это, а повысить. Подробности можно узнать из статьи, а в карточках я расскажу про этапы этого процесса. ↑

А в вашей компании проводят Перформанс ревью?

❤️ — да
💔 — нет
🗿 — а зачем?
24🗿7💔2
Всем привет! Меня зовут Саша Рыжков и я руковожу отделом R&D. На днях поговорил с коллегами из red_mad_robot о будущем исследований в AI.

Обсудили, почему комплексные системы из нескольких моделей вытеснят монолитные решения, и как R&D-центры превращаются в «фабрики адаптации» науки к бизнесу.

Приглашаю почитать

А как вы считаете, что ждёт исследования в AI?
👾 — будущее за ИИ-агентами!
😎 — R&D должен концентрироваться вокруг бизнес-задач
✍️ — расскажу в комментах, как оно правильно
😎22👾13🔥11👍1😱1
Чем окончился 2025 год для ML — узнали на Data Ёлке. Меня зовут Настя Павловская, и я хочу поделиться впечатлениями о митапе.

Для таких любителей рекомендательных систем, как я, программа была особенно насыщенной. Очень полезным оказался доклад Владимира Байкалова про состояние RecSys: классная структура, много ссылок на интересные статьи — пару сразу унесла в закладки.

Внимательно прослушала разбор решений VK RecSys Challenge.

Вынесла два простых, но важных вывода

1️⃣Бустинг всё ещё ого-го: если его аккуратно готовить и обучать, он может конкурировать с нейронками;
2️⃣ В ML решают не только алгоритмы, но и качество исполнения: воспроизводимые пайплайны и честный замер метрик — это базовая гигиена, без которой всё остальное может не сработать.

Круто было послушать и про другие направления
📌 про LLM на триллион параметров от Ant,
📌 историю, как модели для генерации кода «выучили» один из популярных бенчмарков — и как ребята из Сбера собрали альтернативу.

А самое далёкое от моей практики и очень увлекательное — рассказ, как собирают данные для обучения роботов и как устроены такие системы (это вам не кандидатов набрать и проранжировать 🙂).

Отдельный бонус: я интроверт, но всё равно ценю такие мероприятия за возможность поговорить с ребятами из индустрии, обсудить боли, обменяться опытом и расширить картину мира. В этот раз, например, чуть лучше поняла, как устроены рекомендации на маркетплейсах — тема, с которой раньше почти не пересекалась.

В итоге вернулась с митапа очень заряженной — спасибо спикерам, участникам и организаторам за классную атмосферу и полезные обсуждения.

💞 В закладки забрала эти статьи:
🔗 RecIS: Sparse to Dense, A Unified Training Framework for Recommendation Models

🔗 OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender

🔗 Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥4
Привет! Я тут последнее время хожу и проповедую Cursor и Claude Code 😀 А давайте на этот раз проведем опрос про AI для написания кода
👾6
Привычный ML устаревает, его место скоро займут новые технологии. Что происходит — расскажу я Саша Ледовский, DS-менеджер и один из авторов канала. Сегодня поговорим, как поменяются существующие ML-решения в компаниях и куда, на мой взгляд, мы двигаемся.

🤖 Вы скажете, что сейчас все работают над ассистентами. Это правда, и это огромный тренд. Но прямо сейчас уже есть много работающих ML-систем, которые часто имеют высокую критичность и влияние на бизнес. Что будет с ними?

Сейчас большая часть боевых решений построена на небольшом наборе проверенных технологий. Очень примерно:
📌 бустинги,
📌 берты с дообученными головами и LORA,
📌 CLIP эмбеддинги,
📌 векторный поиск,
📌 в поиске и рекомендациях ALS, DSSM и в крупных компаниях трансформеры типа Bert4Rec.

По моим наблюдениям, LLM-ки всё-таки кардинально изменили существующую расстановку сил. Сейчас их применение сдерживают в первую очередь цена и скорость ответа. Но я уверен, что через год-два в проде станет меньше бертов, промпт с большим контекстом вытеснит векторный поиск, появится LLM-ранжирование выдачи и произойдут другие похожие сдвиги.

Текущий паттерн работы DS инженера меняется. Если раньше расстановка была 95% ML/ 5% LLM. То теперь станет 50 на 50. Согласны?

❤️ — решительное да
💔 — да не, ерунда какая-то
👾 — вообще всё не так! А как надо — расскажу в комментариях
💔3629🤔4
Даже в такую погоду можно найти повод выйти из дома — Avito TeamLead Drinkup #4!

Приглашаем всех в наш офис на Лесной, чтобы понетворкать и обсудить метрики здоровья и перфоманса команды, продажу техдолга и использование AI-агентов на собеседованиях, а также поделиться личными кейсами из практики.

Приходите вы и коллег тоже зовите — ждём всех.

🕐 Когда: 17 февраля в 18:00
📍 Где: Москва, ул. Лесная, 7

Ссылка на регистрацию
🔥63🎉31