Доска AI-объявлений

Расширения для Visual Studio Code. Часть 2

Привет! С вами Артём. В прошлый раз мы рассматривали (в основном) расширения для форматирования ĸода. В этот раз я предложу новые инструменты, ĸоторые помогут быть продуĸтивнее и упростят повседневную работу.

Давайте сразу перейдём ĸ ĸарточĸам ↑, а потом возвращайтесь, чтобы установить понравившиеся расширения 🙂

Прямые ссылĸи на расширения:
→ Git Web Links
→ Markdown All in One
→ Markdown PDF
→ markdownlint
→ Rainbow CSV
→ Word Counter

Нравится рубрика? Ставьте 🤍 под постом и подписывайтесь на ĸанал (если вы ещё не подписаны и читаете этот пост), а мы продолжим развивать это направление!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍7🔥5🥰1

1.32K viewsArtem Ryblov, 13:05

Доска AI-объявлений

Всем привет! Я Настя Рысьмятова и спешу рассказать, что мы с командой запустили курс по LLM, и уже прочитали его в магистратуре Авито в МФТИ🔔

LLM — слишком новая технология, поэтому в большинстве университетов программы обновиться не успели. Мы решили это исправить и разработали курс, в котором собрали самую интересную информацию по обучению и инференсу LLM. Всё, о чём рассказываем — реально используем в работе.

⚡️Курс опирается на современную практику, объясняет, как устроены LLM и как с ними работать в системах.

Что разбираем:

🔘Историю развития LLM, терминологию, области применения, этапы обучения, архитектуру, Attention mechanism — MHA, MQA, GQA, MLA.

🔘Какие бывают источники данных и пайплайны фильтрации, этапы обучения токенизатора, процесс запуска претрейна.

🔘CPU и GPU, внутренние особенности GPU, зачем нужно multi-gpu обучение, различия применяемых в обучении программных и аппаратных технологий, виды параллелизмов.

🔘Роль SFT в alignment; отличие от RLHF/DPO.

🔘Полный файнтюн и LoRa и другие низкоранговые адаптации.

🔘RLHF и как применяем его в Авито.

🔘Ускорение инференса, рассказываем, что такое continuous batching, префикс кэширование и kv cache, page attention, спекулятивный декодинг.

🔘Сжатие моделей: квантизация.

🔘Что такое агенты, предпосылки появления агентов, популярные «архитектуры» АС, фреймворки, best practices.

🔘VLM.

🔘Альтернативы LLM: SSM (Mamba, Jamba), RWKV, titans, BLT, llada.

🤩 В будущем будем читать этот курс в Академии Аналитиков Авито.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤31🤩11🔥8💅3😎1

1.67K views14:09

Доска AI-объявлений

✋Всем привет! Год заканчивается, поэтому мы решили оглянуться и посмотреть как он прошёл.

Чаще всего мы рассказывали вам про LLM. Но не забывали про кейсы, техники обучения и инференса на кластерах, метрики, монетизацию и оптимизацию ранжирования. Разбирали статьи и делились новостями с конференций. Давали практические гайды!

За всё время вы подарили нам почти 3 000 реакций, около 300 000 просмотров и 2 700 репостов. Вы самые крутые подписчики в мире, спасибо!

Заметили, что больше всего вам понравились посты от Насти Рысьмятовой про LLM-команду и нашу модель A-vibe. Продолжим в том же духе 💪

Но, может быть, вам хочется чего-то ещё? Расскажите, о чём из мира Data Science хотите читать в будущем году?

Наша команда поздравляет вас с Новым годом, желает всего самого наилучшего и успехов в работе с вашими моделями!

🕕

🕙

🕘

🕥

♣️

🕚

🕤

🕘

🕣

🕘

🕚

❗️

🔔

Please open Telegram to view this post

VIEW IN TELEGRAM

❤24🔥7⚡2

1.72K views09:05

Доска AI-объявлений

Народ, всем привет! Как ваши праздники? 👋

Лично я в праздники не притрагиваюсь к основной работе, но для счастья в жизни прохожу один курс. Как у вас?

🐳9💔1

1.4K viewsAlexander Ledovsky, 10:31

Доска AI-объявлений

Работаете ли в новогодние праздники?

Anonymous Poll

Учусь или делаю хобби проект 🎓

Работаю не по ТК РФ и у меня нет праздников 🥲

291 voters1.42K viewsAlexander Ledovsky, 10:32

Доска AI-объявлений

Первый челлендж в новом году 🚀

Надеемся, все хорошо отдохнули и готовы к новым рабочим подвигам. Держите тест от нашей DS-команды, который поможет размяться⚡️

Оцените свой профессиональный уровень и узнаете, сколько работодатели готовы за него платить.

Тест позволит:
➡️ получить честную оценку навыков, как в перф. ревью, но без собеседования;
➡️ понять свои сильные стороны и зоны роста;
➡️ узнать возможный уровень оплаты на основе данных российских ИТ-компаний.

Разумеется, к упражнению можно подготовиться. Мы заранее собрали материалы, чтобы вы не тратили время на поиски. На странице теста найдёте курсы, статьи и видеодоклады — изучи́те их, чтобы показать лучший результат 🤟

Ловите ссылку на тест. После прохождения бонусом получите повышенный шанс попасть в команду Авито 🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10

1.28K views15:04

Доска AI-объявлений

Карьерный дайджест для тех, кто уже закончил праздновать

Новые возможности в новом году 🔔

🔔

🔔 Собрали свежие вакансии, чтобы найти классных ребят. Пройдите тест из поста выше, чтобы увеличить вероятность попасть к нам 😀 Вот кого мы ищем:

Старший Data Scientist в команду антифрода

Что надо делать:
➡️Разрабатывать модели, которые будут искать нарушения в коммуникациях контура Авито,
➡️Разбираться, в какие пайплайны можно эффективно встраивать модели,
➡️Оценивать влияние на продуктовые метрики команды.
Узнать детали и откликнуться

Старший Data Scientist в команду Поиска

Что надо делать:
➡️Улучшать векторный поиск,
➡️Работать с Deep learning и LLM-моделями,
➡️Разрабатывать и развивать кандидатогенераторы, которые влияют на ключевые метрики и пользовательский опыт.

Это работа на стыке данных, ML и продукта с продакшен-моделями и A/B-экспериментами.
Узнать детали и откликнуться

Старший Data Scientist в команду Недвижимости

Нужен специалист с сильной DS-экспертизой для усиления команды новостроек.

Что надо делать:
➡️Обеспечивать максимально точный и удобный подбор предложений для каждого клиента,
➡️Повышать конверсию в сделки,
➡️Помогать застройщикам достигать целевых показателей по отгрузке лидов.
Узнать детали и откликнуться

Старший Data Scientist в команду поискового ранжирования

Что надо делать:
➡️Разрабатывать и внедрять персонализированное ранжирование поисковой выдачи,
➡️Внедрять ML-модели в новые области продукта,
➡️Совершенствовать алгоритмы векторного поиска и механизмы управления ликвидностью, чтобы покупатели были довольны сервисом.
Узнать детали и откликнуться

Старший Data Scientist в команду Автоматизации поддержки

Что надо делать:
➡️Разрабатывать и внедрять модели классификации обращений (500+ тем),
➡️Улучшать существующие ML- и эвристические решения,
➡️Настраивать сбор и контроль качества разметки,
➡️Запускать LLM-агентов для автоматизации поддержки,
➡️Проводить A/B-тесты и оценивать эффективность решений по ML- и бизнес-метрикам.
Узнать детали и откликнуться

Старший Data Scientist

Что надо делать:
➡️Создавать сервисы поиска и рекомендаций с нуля,
➡️Собирать и размечать датасеты с помощью LLM,
➡️Обучать ранкеры, эмбеддинги и кандидатогенераторы,
➡️Разрабатывать систему метрик для офлайн- и онлайн-оценки качества моделей.
Узнать детали и откликнуться

Это не все специалисты, которых мы ищем. Больше вакансий можно найти на карьерном сайте Авито

🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13✍5🔥3

1.28K views15:30

Доска AI-объявлений

Всем привет! Меня зовут Серёжа Попов и я хочу поговорить с вами про Юргена Шмидхубера — одного из пионеров Deep Learning. Он участвовал в создании LSTM, автор многочисленных работ про архитектуру и обучение нейросетей. Но в культуре вокруг ML он часто фигурирует не просто как ресёрчер, а как «тот самый учёный, который утверждает, что всё придумал ещё в 90‑х».

Почему ругаются в науке
Всё дело в «крёстных отцах» Deep Learning, которые получили Премию Тьюринга (аналог Нобелевки для информатики). Хинтон, ЛеКун и Бенджио получили заслуженное признание в массовой культуре, но Шмидхубера, который обучал нейронки до того, как это стало мейнстримом, обошли стороной.

Недовольство обосновано ещё и тем, что Шмидхубер действительно сделал значительный вклад в развитие ИИ, но в некоторых ключевых работах «крёстных отцов» его prior work не процитировали. Авторы работ не согласны, что цитаты нужны, поэтому в X регулярно вспыхивают публичные пикировки, а Шмидхубер документирует и разносит в своём блоге доводы оппонентов.

В чём плюс конфликтов об ИИ
За спорами интересно наблюдать, в них подсвечиваются разные взгляды на архитектуру нейросетей, а история развития ИИ пополняется именами, которые публика могла забыть. Так, Шмидхубер цитирует публикации советских учёных Алексея Ивахненко и Валентина Лапы, в которых были описаны основы работы многослойных нейросетей!

Подобные конфликты о первенстве в важных научных открытиях были всегда, например, спор между Ньютоном и Лейбницем более 300 лет назад. Сейчас Шмидхубер, по сути, играет роль защитника справедливой атрибуции: требует честно указывать авторов и не забывать старые работы. Но есть и те, кто критикует агрессивность его подхода. Чего только стоит публичная перепалка на NIPS 2016!

И в чём минусы
Из-за таких курьёзов вокруг Шмидхубера и сформировался образ того, кто на любую научную статью готов привести свои работы двадцатилетней давности и кого обязательно нужно процитировать, чтобы потом не столкнуться с обвинениями в плагиате, даже если вы занимаетесь геологией, а не ML (шутка!).

Предлагаю вам оценить небольшую подборку мемов про Юргена Шмидхубера и поделиться своими в комментариях 😁

😁15🔥9😱1

1.45K viewsedited 16:11

Доска AI-объявлений

Привет! Меня зовут Илья Чумак. Сегодня хочу рассказать, как мы автоматизировали создание моделей модерации в Авито.

Модерация — это область, в которой важно быть гибкими. Ландшафт потенциальных нарушений постоянно меняется, и чтобы вовремя находить недопустимый контент, нам необходимо каждый месяц выкатывать в продакшн более 60 ML-моделей.

🤔 До внедрения нашего решения процесс создания модели состоял из таких шагов:

поиск данных → обработка → обучение → тюнинг → выкатка и управление инференсом в проде

Это трудоёмкий процесс, который требовал привлечения инженеров при создании и любых изменениях модели. Каждый шаг был сопряжён с ручной проверкой и контролем всех этапов.

💪 Мы решили всё ускорить и упростить. Для этого разработали систему, которая объединяет внутренние инструменты в единый пайплайн создания моделей.

Её ядро — это разметка за счёт LLM, ускоренная при помощи интерфейса для майнинга данных, сэмплирования и алгоритмов автоматического улучшения исходного промта.

✅ Теперь для создания модели достаточно:

Сформировать набор условий на объявления, например, выбрать категорию или параметр → написать промпт в виде вопроса к содержанию с ответом true/false → запустить пайплайн

Можно, например, спросить: «Есть ли на фото или в тексте предложение о продаже <вставить недопустимый контент>?»

После разметки и обучения модель автоматически становится доступна в проде.

Решение позволяет управлять инференсом модели, например, менять пороги в онлайне или настраивать параметры работы. После изменений модель меняется прямо в проде за несколько минут! Это позволяет оперативно отвечать на любые новые нарушения.

Наличие UI даёт возможность всем членам команды создавать модели. Например, менеджеры уже самостоятельно тестируют систему и формируют успешные кейсы, где ML-модели, созданные за несколько минут, эффективно модерируют тысячи объявлений.

🔥24❤12👍5⚡1🌚1

1.31K views14:59

Доска AI-объявлений

Привет! С вами Артём и сегодня мы рассмотрим этот вопрос (↑), а ещё расскажем, почему в Авито нет дата сайентистов.

Для начала давайте разберёмся, что такое Data Science.

Это междисциплинарная область, объединяющая статистику, математику, программирование и аналитику для извлечения знаний и ценной информации из больших объёмов данных, превращая их в понятные выводы, прогнозы и решения для бизнеса, науки и других сфер.

Уже в 60-х к Data Science впервые относятся, как к отдельной науке, но полноценное признание приходит только в середине нулевых. За 15 лет с тех пор профессия стала более зрелой, и в ней появилась специализация.

Поэтому сейчас компании не ищут (или, по хорошему, не должны искать) дата сайентистов, а университеты и курсы их не обучают. Подробнее про это уже рассказывал Валера Бабушкин на видео и в презентации.

Итак, мы разобрались, что профессии дата сайентист не существует, так как это скорее собирательный образ, как слово «программист».

Теперь определим, какие DS-профессии или роли есть в Авито

👨‍💻 DS-инженер — специалист, который не просто делает fit-predict, а end-to-end отвечает за жизненный цикл модели: формирует датасет, обучает модель, оценивает качество на оффлайне и онлайне, выводит её в прод и мониторит перфоманс.

Сфера Data Science охватывает множество направлений (Classic ML/DL/NLP/CV/RecSys/RL/other), в которых требуется знание определённой предметной области. Поэтому специализация на самом деле ещё более глубокая, чем просто «DS-инженер». Например, название вакансии RecSys ML Engineer говорит о том, что ищут инженера, который в части ML будет заниматься рекомендациями.

👨‍💻 DS-исследователь ищет новые подходы, лучшие из которых перерождаются в статьи и подают на конференции, а потом передают на продукционализацию к DS-инженеру.

👨‍💻 Менеджер DS-продукта собирает и приоритизирует DS-гипотезы, организует работу команды из разработчиков, аналитиков и DS-инженеров.

👨‍💻 Аналитик данных занимается аналитическими исследованиями: генерирует гипотезы, анализирует A/B-эксперименты, а ещё самостоятельно планирует и запускает их.

👨‍💻 Инженер данных разрабатывает витрины от источника до потребителя, прорабатывает модели данных, занимается интеграцией и доработкой платформенных инструментов, создаёт инструменты для автоматизации.

👋 На этом на сегодня всё — спасибо, что читаете нас! Оставляйте реакции и предлагайте в комментариях вопросы по теме DS (в Авито и не только).

💚 Там же в комментариях сразу поделюсь дополнительными ссылками, которые помогут ещё лучше разобраться в data-ролях в Авито ↓

❤22👍12🔥6🥴1

1.3K viewsArtem Ryblov, edited 16:03

Доска AI-объявлений

Всем привет! На связи Данила Бочарников, DS-инженер из поиска Авито. Продолжаем разбирать новости из мира ML. Сегодня поговорим, как ИИ меняет образование прямо сейчас.

🧑‍🎓Без диплома, но в OpenAI
Традиционное образование теряет статус «обязательного» даже для задач PhD-уровня. Яркий пример: человек без высшего образования работает в OpenAI над Sora — одним из самых продвинутых ИИ для генерации видео. Он утверждает: «Всему можно научиться через ChatGPT». Нужна лишь целеустремлённость — и можно освоить любые фундаментальные знания.

🤝 Объединение гигантов онлайн-образования
Coursera и Udemy, которых ещё недавно называли «наследниками университетов», объединяются. Сумма сделки — $2.5 млрд. Зачем? Чтобы вместе ответить на вызов: роль ИИ в обучении растёт и необходимо быстро адаптировать контент.

🤔 Вопрос для размышления
Станет ли нормой отказ от бакалавриата, чтобы раньше стартовать в индустрии, а обучаться через ИИ-ассистентов?

🔥 — если да,
😱 — если нет.

Пишите своё мнение в комментариях!
P.S. Как вы сейчас учитесь: курсы, ИИ-помощники или смешанный подход?

😱34🔥16

1.55K views15:51

Доска AI-объявлений

Привет! С вами Андрей Пудовиков, DS Researcher из Авито. Летом моя коллега — Катя Солоднёва рассказывала про наш бенчмарк BAT — open-source датасет для тестирования автобиддинг-алгоритмов. Мы продолжаем развивать это направление и готовы поделиться крутой новостью!

Нашу работу про новый метод RobustBid приняли на A* конференцию AAMAS 2026! 🎉

О чём речь
Оптимальные автобиддинг-алгоритмы автоматически распределяют бюджет по аукционам. Они сильно зависят от оценок двух ключевых параметров:

CTR — вероятность клика по объявлению.
CVR — вероятность конверсии после клика, например, покупки товара.

Эти вероятности предсказывают ML-модели, и они могут ошибаться. Маленькая неточность в предсказании → отклонение от оптимальной ставки → потраченный бюджет и упущенная выгода. Как быть?

Как работает сейчас. Большинство существующих методов либо полностью игнорируют эту неопределённость, либо вводят сильные предположения только на один параметр.

Что предлагаем. RobustBid — алгоритм, который напрямую использует uncertainty из ML/DL моделей. Мы применили методы робастной оптимизации (robust optimization), чтобы найти такие формулы для расчёта ставки, которые будут устойчивы к ошибкам в предсказаниях CTR и CVR.

Проще говоря, научили алгоритм смотреть на предсказания как на «диапазон возможных значений», а не точных чисел. Формально это _uncertainty set_. После чего выбираем такую ставку, которая максимизирует конверсии даже для худшего значения внутри коридора.

Что получилось
📌 Аналитическое решение. Вывели «явную» формулу для бида с помощью методов робастной оптимизации и линейной алгебры.

📌 Универсальность. Алгоритм умеет работать с неопределённостью отдельно в CTR, отдельно в CVR, а также сразу в обеих — такое сделано впервые. 🤘

📌 Проверенная эффективность. Протестировали на синтетике, iPinYou и, конечно, на нашем BAT-бенчмарке. RobustBid стабильно показывает больше конверсий (TCV) и меньшую среднюю стоимость клика (CPC), относительно других робастных автобиддинговых методов.

Полезные ссылочки для самых любознательных
📄 Статья на Arxiv: Robust Autobidding for Noisy Conversion Prediction Models
📚 Топовый учебник по робастной оптимизации: Robust Optimization
🎯 Прошлый пост про BAT-бенчмарк

Теперь у нас есть не только реалистичный полигон для испытаний (BAT), но и продвинутый «бронебойный» алгоритм для него. Полный комплект! 🔥

🔥19❤6👍5

1.78K viewsedited 16:01

Доска AI-объявлений

Всем привет! На связи Алина Бабенко, Team Lead в Auction Efficiency. Иду к вам прямо с калибровок и они не выходят у меня из головы. Хочется написать про них, но лучше начну с Перформанс ревью, а о калибровках в следующий раз.

Зачем нужно ревью
Большим компаниям нужно точно понимать, что должен уметь сотрудник для конкретной роли. Например, у нас есть DS5, но при этом цели и задачи в командах Монетизации, Поиска и Автомодерации могут отличаться.

С помощью ревью хочется понять, что все хорошие результаты для DS5 в каждой команде выровнены друг с другом. При этом похвалить тех, кто поработал особенно хорошо, а если заслужил повышение грейда, — не пропустить это, а повысить. Подробности можно узнать из статьи, а в карточках я расскажу про этапы этого процесса. ↑

А в вашей компании проводят Перформанс ревью?

❤️ — да
💔 — нет
🗿 — а зачем?

❤24🗿7💔2

1.21K views16:11

Доска AI-объявлений

Всем привет! Меня зовут Саша Рыжков и я руковожу отделом R&D. На днях поговорил с коллегами из red_mad_robot о будущем исследований в AI.

Обсудили, почему комплексные системы из нескольких моделей вытеснят монолитные решения, и как R&D-центры превращаются в «фабрики адаптации» науки к бизнесу.

Приглашаю почитать

А как вы считаете, что ждёт исследования в AI?
👾 — будущее за ИИ-агентами!
😎 — R&D должен концентрироваться вокруг бизнес-задач
✍️ — расскажу в комментах, как оно правильно

😎22👾13🔥11👍1😱1

1.31K views15:11

Доска AI-объявлений

Чем окончился 2025 год для ML — узнали на Data Ёлке. Меня зовут Настя Павловская, и я хочу поделиться впечатлениями о митапе.

Для таких любителей рекомендательных систем, как я, программа была особенно насыщенной. Очень полезным оказался доклад Владимира Байкалова про состояние RecSys: классная структура, много ссылок на интересные статьи — пару сразу унесла в закладки.

Внимательно прослушала разбор решений VK RecSys Challenge.

Вынесла два простых, но важных вывода
1️⃣Бустинг всё ещё ого-го: если его аккуратно готовить и обучать, он может конкурировать с нейронками;
2️⃣ В ML решают не только алгоритмы, но и качество исполнения: воспроизводимые пайплайны и честный замер метрик — это базовая гигиена, без которой всё остальное может не сработать.

Круто было послушать и про другие направления
📌 про LLM на триллион параметров от Ant,
📌 историю, как модели для генерации кода «выучили» один из популярных бенчмарков — и как ребята из Сбера собрали альтернативу.

А самое далёкое от моей практики и очень увлекательное — рассказ, как собирают данные для обучения роботов и как устроены такие системы (это вам не кандидатов набрать и проранжировать 🙂).

Отдельный бонус: я интроверт, но всё равно ценю такие мероприятия за возможность поговорить с ребятами из индустрии, обсудить боли, обменяться опытом и расширить картину мира. В этот раз, например, чуть лучше поняла, как устроены рекомендации на маркетплейсах — тема, с которой раньше почти не пересекалась.

В итоге вернулась с митапа очень заряженной — спасибо спикерам, участникам и организаторам за классную атмосферу и полезные обсуждения.

💞 В закладки забрала эти статьи:
🔗 RecIS: Sparse to Dense, A Unified Training Framework for Recommendation Models

🔗 OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender

🔗 Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍5🔥4

1.74K views15:40

About

Blog

Apps

Platform