Расширения для Visual Studio Code. Часть 2
Привет! С вами Артём. В прошлый раз мы рассматривали (в основном) расширения для форматирования ĸода. В этот раз я предложу новые инструменты, ĸоторые помогут быть продуĸтивнее и упростят повседневную работу.
Давайте сразу перейдём ĸ ĸарточĸам ↑, а потом возвращайтесь, чтобы установить понравившиеся расширения🙂
Прямые ссылĸи на расширения:
→ Git Web Links
→ Markdown All in One
→ Markdown PDF
→ markdownlint
→ Rainbow CSV
→ Word Counter
Нравится рубрика? Ставьте🤍 под постом и подписывайтесь на ĸанал (если вы ещё не подписаны и читаете этот пост), а мы продолжим развивать это направление!
Привет! С вами Артём. В прошлый раз мы рассматривали (в основном) расширения для форматирования ĸода. В этот раз я предложу новые инструменты, ĸоторые помогут быть продуĸтивнее и упростят повседневную работу.
Давайте сразу перейдём ĸ ĸарточĸам ↑, а потом возвращайтесь, чтобы установить понравившиеся расширения
Прямые ссылĸи на расширения:
→ Git Web Links
→ Markdown All in One
→ Markdown PDF
→ markdownlint
→ Rainbow CSV
→ Word Counter
Нравится рубрика? Ставьте
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍7🔥5🥰1
Всем привет! Я Настя Рысьмятова и спешу рассказать, что мы с командой запустили курс по LLM, и уже прочитали его в магистратуре Авито в МФТИ🔔
LLM — слишком новая технология, поэтому в большинстве университетов программы обновиться не успели. Мы решили это исправить и разработали курс, в котором собрали самую интересную информацию по обучению и инференсу LLM. Всё, о чём рассказываем — реально используем в работе.
⚡️ Курс опирается на современную практику, объясняет, как устроены LLM и как с ними работать в системах.
Что разбираем:
🔘 Историю развития LLM, терминологию, области применения, этапы обучения, архитектуру, Attention mechanism — MHA, MQA, GQA, MLA.
🔘 Какие бывают источники данных и пайплайны фильтрации, этапы обучения токенизатора, процесс запуска претрейна.
🔘 CPU и GPU, внутренние особенности GPU, зачем нужно multi-gpu обучение, различия применяемых в обучении программных и аппаратных технологий, виды параллелизмов.
🔘 Роль SFT в alignment; отличие от RLHF/DPO.
🔘 Полный файнтюн и LoRa и другие низкоранговые адаптации.
🔘 RLHF и как применяем его в Авито.
🔘 Ускорение инференса, рассказываем, что такое continuous batching, префикс кэширование и kv cache, page attention, спекулятивный декодинг.
🔘 Сжатие моделей: квантизация.
🔘 Что такое агенты, предпосылки появления агентов, популярные «архитектуры» АС, фреймворки, best practices.
🔘 VLM.
🔘 Альтернативы LLM: SSM (Mamba, Jamba), RWKV, titans, BLT, llada.
🤩 В будущем будем читать этот курс в Академии Аналитиков Авито.
LLM — слишком новая технология, поэтому в большинстве университетов программы обновиться не успели. Мы решили это исправить и разработали курс, в котором собрали самую интересную информацию по обучению и инференсу LLM. Всё, о чём рассказываем — реально используем в работе.
Что разбираем:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤31🤩11🔥8💅3😎1
Чаще всего мы рассказывали вам про LLM. Но не забывали про кейсы, техники обучения и инференса на кластерах, метрики, монетизацию и оптимизацию ранжирования. Разбирали статьи и делились новостями с конференций. Давали практические гайды!
За всё время вы подарили нам почти 3 000 реакций, около 300 000 просмотров и 2 700 репостов. Вы самые крутые подписчики в мире, спасибо!
Заметили, что больше всего вам понравились посты от Насти Рысьмятовой про LLM-команду и нашу модель A-vibe. Продолжим в том же духе 💪
Но, может быть, вам хочется чего-то ещё? Расскажите, о чём из мира Data Science хотите читать в будущем году?
Наша команда поздравляет вас с Новым годом, желает всего самого наилучшего и успехов в работе с вашими моделями!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24🔥7⚡2
Народ, всем привет! Как ваши праздники? 👋
Лично я в праздники не притрагиваюсь к основной работе, но для счастья в жизни прохожу один курс. Как у вас?
Лично я в праздники не притрагиваюсь к основной работе, но для счастья в жизни прохожу один курс. Как у вас?
🐳9💔1
Работаете ли в новогодние праздники?
Anonymous Poll
54%
Полный чилл 🌴
11%
Работаю 💻
31%
Учусь или делаю хобби проект 🎓
4%
Работаю не по ТК РФ и у меня нет праздников 🥲
Первый челлендж в новом году 🚀
Надеемся, все хорошо отдохнули и готовы к новым рабочим подвигам. Держите тест от нашей DS-команды, который поможет размяться⚡️
Оцените свой профессиональный уровень и узнаете, сколько работодатели готовы за него платить.
Тест позволит:
➡️ получить честную оценку навыков, как в перф. ревью, но без собеседования;
➡️ понять свои сильные стороны и зоны роста;
➡️ узнать возможный уровень оплаты на основе данных российских ИТ-компаний.
Разумеется, к упражнению можно подготовиться. Мы заранее собрали материалы, чтобы вы не тратили время на поиски. На странице теста найдёте курсы, статьи и видеодоклады — изучи́те их, чтобы показать лучший результат🤟
Ловите ссылку на тест. После прохождения бонусом получите повышенный шанс попасть в команду Авито🥳
Надеемся, все хорошо отдохнули и готовы к новым рабочим подвигам. Держите тест от нашей DS-команды, который поможет размяться
Оцените свой профессиональный уровень и узнаете, сколько работодатели готовы за него платить.
Тест позволит:
Разумеется, к упражнению можно подготовиться. Мы заранее собрали материалы, чтобы вы не тратили время на поиски. На странице теста найдёте курсы, статьи и видеодоклады — изучи́те их, чтобы показать лучший результат
Ловите ссылку на тест. После прохождения бонусом получите повышенный шанс попасть в команду Авито
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Карьерный дайджест для тех, кто уже закончил праздновать
Новые возможности в новом году🔔 🔔 🔔 Собрали свежие вакансии, чтобы найти классных ребят. Пройдите тест из поста выше, чтобы увеличить вероятность попасть к нам 😀 Вот кого мы ищем:
Старший Data Scientist в команду антифрода
Что надо делать:
➡️ Разрабатывать модели, которые будут искать нарушения в коммуникациях контура Авито,
➡️ Разбираться, в какие пайплайны можно эффективно встраивать модели,
➡️ Оценивать влияние на продуктовые метрики команды.
Узнать детали и откликнуться
Старший Data Scientist в команду Поиска
Что надо делать:
➡️ Улучшать векторный поиск,
➡️ Работать с Deep learning и LLM-моделями,
➡️ Разрабатывать и развивать кандидатогенераторы, которые влияют на ключевые метрики и пользовательский опыт.
Это работа на стыке данных, ML и продукта с продакшен-моделями и A/B-экспериментами.
Узнать детали и откликнуться
Старший Data Scientist в команду Недвижимости
Нужен специалист с сильной DS-экспертизой для усиления команды новостроек.
Что надо делать:
➡️ Обеспечивать максимально точный и удобный подбор предложений для каждого клиента,
➡️ Повышать конверсию в сделки,
➡️ Помогать застройщикам достигать целевых показателей по отгрузке лидов.
Узнать детали и откликнуться
Старший Data Scientist в команду поискового ранжирования
Что надо делать:
➡️ Разрабатывать и внедрять персонализированное ранжирование поисковой выдачи,
➡️ Внедрять ML-модели в новые области продукта,
➡️ Совершенствовать алгоритмы векторного поиска и механизмы управления ликвидностью, чтобы покупатели были довольны сервисом.
Узнать детали и откликнуться
Старший Data Scientist в команду Автоматизации поддержки
Что надо делать:
➡️ Разрабатывать и внедрять модели классификации обращений (500+ тем),
➡️ Улучшать существующие ML- и эвристические решения,
➡️ Настраивать сбор и контроль качества разметки,
➡️ Запускать LLM-агентов для автоматизации поддержки,
➡️ Проводить A/B-тесты и оценивать эффективность решений по ML- и бизнес-метрикам.
Узнать детали и откликнуться
Старший Data Scientist
Что надо делать:
➡️ Создавать сервисы поиска и рекомендаций с нуля,
➡️ Собирать и размечать датасеты с помощью LLM,
➡️ Обучать ранкеры, эмбеддинги и кандидатогенераторы,
➡️ Разрабатывать систему метрик для офлайн- и онлайн-оценки качества моделей.
Узнать детали и откликнуться
Это не все специалисты, которых мы ищем. Больше вакансий можно найти на карьерном сайте Авито🥳
Новые возможности в новом году
Старший Data Scientist в команду антифрода
Что надо делать:
Узнать детали и откликнуться
Старший Data Scientist в команду Поиска
Что надо делать:
Это работа на стыке данных, ML и продукта с продакшен-моделями и A/B-экспериментами.
Узнать детали и откликнуться
Старший Data Scientist в команду Недвижимости
Нужен специалист с сильной DS-экспертизой для усиления команды новостроек.
Что надо делать:
Узнать детали и откликнуться
Старший Data Scientist в команду поискового ранжирования
Что надо делать:
Узнать детали и откликнуться
Старший Data Scientist в команду Автоматизации поддержки
Что надо делать:
Узнать детали и откликнуться
Старший Data Scientist
Что надо делать:
Узнать детали и откликнуться
Это не все специалисты, которых мы ищем. Больше вакансий можно найти на карьерном сайте Авито
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13✍5🔥3
Всем привет! Меня зовут Серёжа Попов и я хочу поговорить с вами про Юргена Шмидхубера — одного из пионеров Deep Learning. Он участвовал в создании LSTM, автор многочисленных работ про архитектуру и обучение нейросетей. Но в культуре вокруг ML он часто фигурирует не просто как ресёрчер, а как «тот самый учёный, который утверждает, что всё придумал ещё в 90‑х».
Почему ругаются в науке
Всё дело в «крёстных отцах» Deep Learning, которые получили Премию Тьюринга (аналог Нобелевки для информатики). Хинтон, ЛеКун и Бенджио получили заслуженное признание в массовой культуре, но Шмидхубера, который обучал нейронки до того, как это стало мейнстримом, обошли стороной.
Недовольство обосновано ещё и тем, что Шмидхубер действительно сделал значительный вклад в развитие ИИ, но в некоторых ключевых работах «крёстных отцов» его prior work не процитировали. Авторы работ не согласны, что цитаты нужны, поэтому в X регулярно вспыхивают публичные пикировки, а Шмидхубер документирует и разносит в своём блоге доводы оппонентов.
В чём плюс конфликтов об ИИ
За спорами интересно наблюдать, в них подсвечиваются разные взгляды на архитектуру нейросетей, а история развития ИИ пополняется именами, которые публика могла забыть. Так, Шмидхубер цитирует публикации советских учёных Алексея Ивахненко и Валентина Лапы, в которых были описаны основы работы многослойных нейросетей!
Подобные конфликты о первенстве в важных научных открытиях были всегда, например, спор между Ньютоном и Лейбницем более 300 лет назад. Сейчас Шмидхубер, по сути, играет роль защитника справедливой атрибуции: требует честно указывать авторов и не забывать старые работы. Но есть и те, кто критикует агрессивность его подхода. Чего только стоит публичная перепалка на NIPS 2016!
И в чём минусы
Из-за таких курьёзов вокруг Шмидхубера и сформировался образ того, кто на любую научную статью готов привести свои работы двадцатилетней давности и кого обязательно нужно процитировать, чтобы потом не столкнуться с обвинениями в плагиате, даже если вы занимаетесь геологией, а не ML (шутка!).
Предлагаю вам оценить небольшую подборку мемов про Юргена Шмидхубера и поделиться своими в комментариях 😁
Почему ругаются в науке
Всё дело в «крёстных отцах» Deep Learning, которые получили Премию Тьюринга (аналог Нобелевки для информатики). Хинтон, ЛеКун и Бенджио получили заслуженное признание в массовой культуре, но Шмидхубера, который обучал нейронки до того, как это стало мейнстримом, обошли стороной.
Недовольство обосновано ещё и тем, что Шмидхубер действительно сделал значительный вклад в развитие ИИ, но в некоторых ключевых работах «крёстных отцов» его prior work не процитировали. Авторы работ не согласны, что цитаты нужны, поэтому в X регулярно вспыхивают публичные пикировки, а Шмидхубер документирует и разносит в своём блоге доводы оппонентов.
В чём плюс конфликтов об ИИ
За спорами интересно наблюдать, в них подсвечиваются разные взгляды на архитектуру нейросетей, а история развития ИИ пополняется именами, которые публика могла забыть. Так, Шмидхубер цитирует публикации советских учёных Алексея Ивахненко и Валентина Лапы, в которых были описаны основы работы многослойных нейросетей!
Подобные конфликты о первенстве в важных научных открытиях были всегда, например, спор между Ньютоном и Лейбницем более 300 лет назад. Сейчас Шмидхубер, по сути, играет роль защитника справедливой атрибуции: требует честно указывать авторов и не забывать старые работы. Но есть и те, кто критикует агрессивность его подхода. Чего только стоит публичная перепалка на NIPS 2016!
И в чём минусы
Из-за таких курьёзов вокруг Шмидхубера и сформировался образ того, кто на любую научную статью готов привести свои работы двадцатилетней давности и кого обязательно нужно процитировать, чтобы потом не столкнуться с обвинениями в плагиате, даже если вы занимаетесь геологией, а не ML (шутка!).
Предлагаю вам оценить небольшую подборку мемов про Юргена Шмидхубера и поделиться своими в комментариях 😁
😁15🔥9😱1
Привет! Меня зовут Илья Чумак. Сегодня хочу рассказать, как мы автоматизировали создание моделей модерации в Авито.
Модерация — это область, в которой важно быть гибкими. Ландшафт потенциальных нарушений постоянно меняется, и чтобы вовремя находить недопустимый контент, нам необходимо каждый месяц выкатывать в продакшн более 60 ML-моделей.
🤔 До внедрения нашего решения процесс создания модели состоял из таких шагов:
Это трудоёмкий процесс, который требовал привлечения инженеров при создании и любых изменениях модели. Каждый шаг был сопряжён с ручной проверкой и контролем всех этапов.
💪 Мы решили всё ускорить и упростить. Для этого разработали систему, которая объединяет внутренние инструменты в единый пайплайн создания моделей.
Её ядро — это разметка за счёт LLM, ускоренная при помощи интерфейса для майнинга данных, сэмплирования и алгоритмов автоматического улучшения исходного промта.
✅ Теперь для создания модели достаточно:
Можно, например, спросить: «Есть ли на фото или в тексте предложение о продаже <вставить недопустимый контент>?»
После разметки и обучения модель автоматически становится доступна в проде.
Решение позволяет управлять инференсом модели, например, менять пороги в онлайне или настраивать параметры работы. После изменений модель меняется прямо в проде за несколько минут! Это позволяет оперативно отвечать на любые новые нарушения.
Наличие UI даёт возможность всем членам команды создавать модели. Например, менеджеры уже самостоятельно тестируют систему и формируют успешные кейсы, где ML-модели, созданные за несколько минут, эффективно модерируют тысячи объявлений.
Модерация — это область, в которой важно быть гибкими. Ландшафт потенциальных нарушений постоянно меняется, и чтобы вовремя находить недопустимый контент, нам необходимо каждый месяц выкатывать в продакшн более 60 ML-моделей.
🤔 До внедрения нашего решения процесс создания модели состоял из таких шагов:
поиск данных → обработка → обучение → тюнинг → выкатка и управление инференсом в проде
Это трудоёмкий процесс, который требовал привлечения инженеров при создании и любых изменениях модели. Каждый шаг был сопряжён с ручной проверкой и контролем всех этапов.
💪 Мы решили всё ускорить и упростить. Для этого разработали систему, которая объединяет внутренние инструменты в единый пайплайн создания моделей.
Её ядро — это разметка за счёт LLM, ускоренная при помощи интерфейса для майнинга данных, сэмплирования и алгоритмов автоматического улучшения исходного промта.
✅ Теперь для создания модели достаточно:
Сформировать набор условий на объявления, например, выбрать категорию или параметр → написать промпт в виде вопроса к содержанию с ответом true/false → запустить пайплайн
Можно, например, спросить: «Есть ли на фото или в тексте предложение о продаже <вставить недопустимый контент>?»
После разметки и обучения модель автоматически становится доступна в проде.
Решение позволяет управлять инференсом модели, например, менять пороги в онлайне или настраивать параметры работы. После изменений модель меняется прямо в проде за несколько минут! Это позволяет оперативно отвечать на любые новые нарушения.
Наличие UI даёт возможность всем членам команды создавать модели. Например, менеджеры уже самостоятельно тестируют систему и формируют успешные кейсы, где ML-модели, созданные за несколько минут, эффективно модерируют тысячи объявлений.
🔥24❤12👍5⚡1🌚1
Привет! С вами Артём и сегодня мы рассмотрим этот вопрос (↑), а ещё расскажем, почему в Авито нет дата сайентистов.
Для начала давайте разберёмся, что такое Data Science.
Уже в 60-х к Data Science впервые относятся, как к отдельной науке, но полноценное признание приходит только в середине нулевых. За 15 лет с тех пор профессия стала более зрелой, и в ней появилась специализация.
Поэтому сейчас компании не ищут (или, по хорошему, не должны искать) дата сайентистов, а университеты и курсы их не обучают. Подробнее про это уже рассказывал Валера Бабушкин на видео и в презентации.
Итак, мы разобрались, что профессии дата сайентист не существует, так как это скорее собирательный образ, как слово «программист».
Теперь определим, какие DS-профессии или роли есть в Авито
👨💻 DS-инженер — специалист, который не просто делает fit-predict, а end-to-end отвечает за жизненный цикл модели: формирует датасет, обучает модель, оценивает качество на оффлайне и онлайне, выводит её в прод и мониторит перфоманс.
Сфера Data Science охватывает множество направлений (Classic ML/DL/NLP/CV/RecSys/RL/other), в которых требуется знание определённой предметной области. Поэтому специализация на самом деле ещё более глубокая, чем просто «DS-инженер». Например, название вакансии RecSys ML Engineer говорит о том, что ищут инженера, который в части ML будет заниматься рекомендациями.
👨💻 DS-исследователь ищет новые подходы, лучшие из которых перерождаются в статьи и подают на конференции, а потом передают на продукционализацию к DS-инженеру.
👨💻 Менеджер DS-продукта собирает и приоритизирует DS-гипотезы, организует работу команды из разработчиков, аналитиков и DS-инженеров.
👨💻 Аналитик данных занимается аналитическими исследованиями: генерирует гипотезы, анализирует A/B-эксперименты, а ещё самостоятельно планирует и запускает их.
👨💻 Инженер данных разрабатывает витрины от источника до потребителя, прорабатывает модели данных, занимается интеграцией и доработкой платформенных инструментов, создаёт инструменты для автоматизации.
👋 На этом на сегодня всё — спасибо, что читаете нас! Оставляйте реакции и предлагайте в комментариях вопросы по теме DS (в Авито и не только).
💚 Там же в комментариях сразу поделюсь дополнительными ссылками, которые помогут ещё лучше разобраться в data-ролях в Авито ↓
Для начала давайте разберёмся, что такое Data Science.
Это междисциплинарная область, объединяющая статистику, математику, программирование и аналитику для извлечения знаний и ценной информации из больших объёмов данных, превращая их в понятные выводы, прогнозы и решения для бизнеса, науки и других сфер.
Уже в 60-х к Data Science впервые относятся, как к отдельной науке, но полноценное признание приходит только в середине нулевых. За 15 лет с тех пор профессия стала более зрелой, и в ней появилась специализация.
Поэтому сейчас компании не ищут (или, по хорошему, не должны искать) дата сайентистов, а университеты и курсы их не обучают. Подробнее про это уже рассказывал Валера Бабушкин на видео и в презентации.
Итак, мы разобрались, что профессии дата сайентист не существует, так как это скорее собирательный образ, как слово «программист».
Теперь определим, какие DS-профессии или роли есть в Авито
👨💻 DS-инженер — специалист, который не просто делает fit-predict, а end-to-end отвечает за жизненный цикл модели: формирует датасет, обучает модель, оценивает качество на оффлайне и онлайне, выводит её в прод и мониторит перфоманс.
👨💻 DS-исследователь ищет новые подходы, лучшие из которых перерождаются в статьи и подают на конференции, а потом передают на продукционализацию к DS-инженеру.
👨💻 Менеджер DS-продукта собирает и приоритизирует DS-гипотезы, организует работу команды из разработчиков, аналитиков и DS-инженеров.
👨💻 Аналитик данных занимается аналитическими исследованиями: генерирует гипотезы, анализирует A/B-эксперименты, а ещё самостоятельно планирует и запускает их.
👨💻 Инженер данных разрабатывает витрины от источника до потребителя, прорабатывает модели данных, занимается интеграцией и доработкой платформенных инструментов, создаёт инструменты для автоматизации.
👋 На этом на сегодня всё — спасибо, что читаете нас! Оставляйте реакции и предлагайте в комментариях вопросы по теме DS (в Авито и не только).
💚 Там же в комментариях сразу поделюсь дополнительными ссылками, которые помогут ещё лучше разобраться в data-ролях в Авито ↓
❤22👍12🔥6🥴1
Всем привет! На связи Данила Бочарников, DS-инженер из поиска Авито. Продолжаем разбирать новости из мира ML. Сегодня поговорим, как ИИ меняет образование прямо сейчас.
🧑🎓Без диплома, но в OpenAI
Традиционное образование теряет статус «обязательного» даже для задач PhD-уровня. Яркий пример: человек без высшего образования работает в OpenAI над Sora — одним из самых продвинутых ИИ для генерации видео. Он утверждает: «Всему можно научиться через ChatGPT». Нужна лишь целеустремлённость — и можно освоить любые фундаментальные знания.
🤝 Объединение гигантов онлайн-образования
Coursera и Udemy, которых ещё недавно называли «наследниками университетов», объединяются. Сумма сделки — $2.5 млрд. Зачем? Чтобы вместе ответить на вызов: роль ИИ в обучении растёт и необходимо быстро адаптировать контент.
🤔 Вопрос для размышления
Станет ли нормой отказ от бакалавриата, чтобы раньше стартовать в индустрии, а обучаться через ИИ-ассистентов?
🔥 — если да,
😱 — если нет.
Пишите своё мнение в комментариях!
P.S. Как вы сейчас учитесь: курсы, ИИ-помощники или смешанный подход?
🧑🎓Без диплома, но в OpenAI
Традиционное образование теряет статус «обязательного» даже для задач PhD-уровня. Яркий пример: человек без высшего образования работает в OpenAI над Sora — одним из самых продвинутых ИИ для генерации видео. Он утверждает: «Всему можно научиться через ChatGPT». Нужна лишь целеустремлённость — и можно освоить любые фундаментальные знания.
🤝 Объединение гигантов онлайн-образования
Coursera и Udemy, которых ещё недавно называли «наследниками университетов», объединяются. Сумма сделки — $2.5 млрд. Зачем? Чтобы вместе ответить на вызов: роль ИИ в обучении растёт и необходимо быстро адаптировать контент.
🤔 Вопрос для размышления
Станет ли нормой отказ от бакалавриата, чтобы раньше стартовать в индустрии, а обучаться через ИИ-ассистентов?
🔥 — если да,
😱 — если нет.
Пишите своё мнение в комментариях!
P.S. Как вы сейчас учитесь: курсы, ИИ-помощники или смешанный подход?
😱34🔥16
Привет! С вами Андрей Пудовиков, DS Researcher из Авито. Летом моя коллега — Катя Солоднёва рассказывала про наш бенчмарк BAT — open-source датасет для тестирования автобиддинг-алгоритмов. Мы продолжаем развивать это направление и готовы поделиться крутой новостью!
Нашу работу про новый метод RobustBid приняли на A* конференцию AAMAS 2026! 🎉
О чём речь
Оптимальные автобиддинг-алгоритмы автоматически распределяют бюджет по аукционам. Они сильно зависят от оценок двух ключевых параметров:
CTR — вероятность клика по объявлению.
CVR — вероятность конверсии после клика, например, покупки товара.
Эти вероятности предсказывают ML-модели, и они могут ошибаться. Маленькая неточность в предсказании → отклонение от оптимальной ставки → потраченный бюджет и упущенная выгода. Как быть?
Как работает сейчас. Большинство существующих методов либо полностью игнорируют эту неопределённость, либо вводят сильные предположения только на один параметр.
Что предлагаем. RobustBid — алгоритм, который напрямую использует uncertainty из ML/DL моделей. Мы применили методы робастной оптимизации (robust optimization), чтобы найти такие формулы для расчёта ставки, которые будут устойчивы к ошибкам в предсказаниях CTR и CVR.
Проще говоря, научили алгоритм смотреть на предсказания как на «диапазон возможных значений», а не точных чисел. Формально это _uncertainty set_. После чего выбираем такую ставку, которая максимизирует конверсии даже для худшего значения внутри коридора.
Что получилось
📌 Аналитическое решение. Вывели «явную» формулу для бида с помощью методов робастной оптимизации и линейной алгебры.
📌 Универсальность. Алгоритм умеет работать с неопределённостью отдельно в CTR, отдельно в CVR, а также сразу в обеих — такое сделано впервые. 🤘
📌 Проверенная эффективность. Протестировали на синтетике, iPinYou и, конечно, на нашем BAT-бенчмарке. RobustBid стабильно показывает больше конверсий (TCV) и меньшую среднюю стоимость клика (CPC), относительно других робастных автобиддинговых методов.
Полезные ссылочки для самых любознательных
📄 Статья на Arxiv: Robust Autobidding for Noisy Conversion Prediction Models
📚 Топовый учебник по робастной оптимизации: Robust Optimization
🎯 Прошлый пост про BAT-бенчмарк
Теперь у нас есть не только реалистичный полигон для испытаний (BAT), но и продвинутый «бронебойный» алгоритм для него. Полный комплект! 🔥
Нашу работу про новый метод RobustBid приняли на A* конференцию AAMAS 2026! 🎉
О чём речь
Оптимальные автобиддинг-алгоритмы автоматически распределяют бюджет по аукционам. Они сильно зависят от оценок двух ключевых параметров:
CTR — вероятность клика по объявлению.
CVR — вероятность конверсии после клика, например, покупки товара.
Эти вероятности предсказывают ML-модели, и они могут ошибаться. Маленькая неточность в предсказании → отклонение от оптимальной ставки → потраченный бюджет и упущенная выгода. Как быть?
Как работает сейчас. Большинство существующих методов либо полностью игнорируют эту неопределённость, либо вводят сильные предположения только на один параметр.
Что предлагаем. RobustBid — алгоритм, который напрямую использует uncertainty из ML/DL моделей. Мы применили методы робастной оптимизации (robust optimization), чтобы найти такие формулы для расчёта ставки, которые будут устойчивы к ошибкам в предсказаниях CTR и CVR.
Проще говоря, научили алгоритм смотреть на предсказания как на «диапазон возможных значений», а не точных чисел. Формально это _uncertainty set_. После чего выбираем такую ставку, которая максимизирует конверсии даже для худшего значения внутри коридора.
Что получилось
📌 Аналитическое решение. Вывели «явную» формулу для бида с помощью методов робастной оптимизации и линейной алгебры.
📌 Универсальность. Алгоритм умеет работать с неопределённостью отдельно в CTR, отдельно в CVR, а также сразу в обеих — такое сделано впервые. 🤘
📌 Проверенная эффективность. Протестировали на синтетике, iPinYou и, конечно, на нашем BAT-бенчмарке. RobustBid стабильно показывает больше конверсий (TCV) и меньшую среднюю стоимость клика (CPC), относительно других робастных автобиддинговых методов.
Полезные ссылочки для самых любознательных
📄 Статья на Arxiv: Robust Autobidding for Noisy Conversion Prediction Models
📚 Топовый учебник по робастной оптимизации: Robust Optimization
🎯 Прошлый пост про BAT-бенчмарк
Теперь у нас есть не только реалистичный полигон для испытаний (BAT), но и продвинутый «бронебойный» алгоритм для него. Полный комплект! 🔥
🔥19❤6👍5
Всем привет! На связи Алина Бабенко, Team Lead в Auction Efficiency. Иду к вам прямо с калибровок и они не выходят у меня из головы. Хочется написать про них, но лучше начну с Перформанс ревью, а о калибровках в следующий раз.
Зачем нужно ревью
Большим компаниям нужно точно понимать, что должен уметь сотрудник для конкретной роли. Например, у нас есть DS5, но при этом цели и задачи в командах Монетизации, Поиска и Автомодерации могут отличаться.
С помощью ревью хочется понять, что все хорошие результаты для DS5 в каждой команде выровнены друг с другом. При этом похвалить тех, кто поработал особенно хорошо, а если заслужил повышение грейда, — не пропустить это, а повысить. Подробности можно узнать из статьи, а в карточках я расскажу про этапы этого процесса. ↑
А в вашей компании проводят Перформанс ревью?
❤️ — да
💔 — нет
🗿 — а зачем?
Зачем нужно ревью
Большим компаниям нужно точно понимать, что должен уметь сотрудник для конкретной роли. Например, у нас есть DS5, но при этом цели и задачи в командах Монетизации, Поиска и Автомодерации могут отличаться.
С помощью ревью хочется понять, что все хорошие результаты для DS5 в каждой команде выровнены друг с другом. При этом похвалить тех, кто поработал особенно хорошо, а если заслужил повышение грейда, — не пропустить это, а повысить. Подробности можно узнать из статьи, а в карточках я расскажу про этапы этого процесса. ↑
А в вашей компании проводят Перформанс ревью?
❤️ — да
💔 — нет
🗿 — а зачем?
❤24🗿7💔2
Всем привет! Меня зовут Саша Рыжков и я руковожу отделом R&D. На днях поговорил с коллегами из red_mad_robot о будущем исследований в AI.
Обсудили, почему комплексные системы из нескольких моделей вытеснят монолитные решения, и как R&D-центры превращаются в «фабрики адаптации» науки к бизнесу.
Приглашаю почитать
А как вы считаете, что ждёт исследования в AI?
👾 — будущее за ИИ-агентами!
😎 — R&D должен концентрироваться вокруг бизнес-задач
✍️ — расскажу в комментах, как оно правильно
Обсудили, почему комплексные системы из нескольких моделей вытеснят монолитные решения, и как R&D-центры превращаются в «фабрики адаптации» науки к бизнесу.
Приглашаю почитать
А как вы считаете, что ждёт исследования в AI?
👾 — будущее за ИИ-агентами!
😎 — R&D должен концентрироваться вокруг бизнес-задач
✍️ — расскажу в комментах, как оно правильно
😎22👾13🔥11👍1😱1
Чем окончился 2025 год для ML — узнали на Data Ёлке. Меня зовут Настя Павловская, и я хочу поделиться впечатлениями о митапе.
Для таких любителей рекомендательных систем, как я, программа была особенно насыщенной. Очень полезным оказался доклад Владимира Байкалова про состояние RecSys: классная структура, много ссылок на интересные статьи — пару сразу унесла в закладки.
Внимательно прослушала разбор решений VK RecSys Challenge.
Вынесла два простых, но важных вывода
1️⃣ Бустинг всё ещё ого-го: если его аккуратно готовить и обучать, он может конкурировать с нейронками;
2️⃣ В ML решают не только алгоритмы, но и качество исполнения: воспроизводимые пайплайны и честный замер метрик — это базовая гигиена, без которой всё остальное может не сработать.
Круто было послушать и про другие направления
📌 про LLM на триллион параметров от Ant,
📌 историю, как модели для генерации кода «выучили» один из популярных бенчмарков — и как ребята из Сбера собрали альтернативу.
А самое далёкое от моей практики и очень увлекательное — рассказ, как собирают данные для обучения роботов и как устроены такие системы (это вам не кандидатов набрать и проранжировать🙂 ).
Отдельный бонус: я интроверт, но всё равно ценю такие мероприятия за возможность поговорить с ребятами из индустрии, обсудить боли, обменяться опытом и расширить картину мира. В этот раз, например, чуть лучше поняла, как устроены рекомендации на маркетплейсах — тема, с которой раньше почти не пересекалась.
В итоге вернулась с митапа очень заряженной — спасибо спикерам, участникам и организаторам за классную атмосферу и полезные обсуждения.
💞 В закладки забрала эти статьи:
🔗 RecIS: Sparse to Dense, A Unified Training Framework for Recommendation Models
🔗 OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender
🔗 Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models
Для таких любителей рекомендательных систем, как я, программа была особенно насыщенной. Очень полезным оказался доклад Владимира Байкалова про состояние RecSys: классная структура, много ссылок на интересные статьи — пару сразу унесла в закладки.
Внимательно прослушала разбор решений VK RecSys Challenge.
Вынесла два простых, но важных вывода
Круто было послушать и про другие направления
А самое далёкое от моей практики и очень увлекательное — рассказ, как собирают данные для обучения роботов и как устроены такие системы (это вам не кандидатов набрать и проранжировать
Отдельный бонус: я интроверт, но всё равно ценю такие мероприятия за возможность поговорить с ребятами из индустрии, обсудить боли, обменяться опытом и расширить картину мира. В этот раз, например, чуть лучше поняла, как устроены рекомендации на маркетплейсах — тема, с которой раньше почти не пересекалась.
В итоге вернулась с митапа очень заряженной — спасибо спикерам, участникам и организаторам за классную атмосферу и полезные обсуждения.
🔗 RecIS: Sparse to Dense, A Unified Training Framework for Recommendation Models
🔗 OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender
🔗 Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍5🔥4