Доска AI-объявлений
3.71K subscribers
269 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Если вы до сих пор используете одну единственную модель для распознавания русской речи — вы либо гений, либо не знаете про релизы прошлого года, которые меняют наше представление о качестве опенсорс решений для ASR.

Всем привет! На связи Наташа Вареник, DS-инженер команды горизонтальных ML технологий в Авито, занимаюсь звуком, в частности ASR — автоматическим распознаванием речи.

Сегодня расскажу про открытые модели распознавания для русского языка. 2025 год оказался очень щедрым на релизы от российских компаний и лабораторий. И я считаю эти модели хорошими кандидатами для использования из коробки, если нужен быстрый старт и лицензия позволяет.

В области ASR на русском языке конкурируют несколько перспективных направлений: классические CTC и RNN-T Transducer модели, новые Audio LLM, оптимизированные под скорость версии больших моделей, а также проверенные временем инструментарии на базе Kaldi. Каждый из подходов занимает свою интересную нишу. Сравнительный анализ показываю в карточках ⬆️

Ссылки, если хотите узнать больше
GigaAM-v3
Borealis (Vikhr)
T-one CTC
Whisper Podlodka Turbo
Whisper Large-v3 Turbo
Семейство моделей Vosk
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1711👍9🔥4
LLM — Part 4, что нас ждёт в разработке. Всем привет! На связи Данила Бочарников, DS-инженер команды поиска Авито. Продолжаем регулярно сканировать инфополе, чтобы разбирать новости мира ML.

🧑‍💻 Разработчики перестали разрабатывать?
Мы живем в новой реальности. Теперь компании хвастаются тем, что их сотрудники не написали ни строчки кода. Spotify официально заявил: лучшие инженеры компании не кодили с декабря, а скорость разработки фич при этом только выросла.

🇬🇧 Программируем на английском
Вышло интервью с Андреем Бреславом (создателем Kotlin). Сейчас он работает над новым языком программирования, который базируется на обычном английском. Если хотите деталей — вот вам транскрипт и видео.

Андрей смотрит в будущее с огромным оптимизмом и считает, что LLM полностью перевернут то, как мы пишем код.

🤔 Вопрос для размышления: что будет с профессией разработчика дальше?

🔥 — если верите, что мы выходим на новый уровень эффективности и творчества.
🤔 — если видите в этом тотальную автоматизацию и замену людей.

P.S. А вы уже пользуетесь кодовыми агентами в повседневной работе? Делитесь лайфхаками в комментариях.
🔥21🤔13👍1
Крупнейшая AI-конференция восточной Европы

Всем привет! На связи Марк, DS-Engineer в команде LLM. Недавно мы с командой вернулись из Белграда, где посетили OpenTalks.AI 2026 🇷🇸

На этот раз мы приехали практически всей командой LLM — представляли Авито сразу в нескольких докладах.

Что мы привезли. Настя Рысьмятова и Костя Веснин выступили с техническим докладом про A-vibe и A-Vision — наши открытые языковая и мультимодальная модели. Доклад прозвучал в бизнес треке, аудиторию больше всего интересовало:

🔵как именно мы применяем модель внутри Авито,
🔵детали нашего подхода к обучению,
🔵метрики и как подход масштабируется на модели большего размера.

Для аудитории подход с полным циклом обучения модели для нескольких сценариев внутреннего использования показался новым, из зала задавали много вопросов о бизнес-применениях модели. Узнать подробности про A-vibe можно в статье на Хабре.

Что зацепило из чужих докладов. Все выступления были на очень высоком уровне подготовки, но особенно запомнились два:

🟢Про иерархическую модификацию GRPO для диалоговых агентов, как раз та область, в которой мы хотим активно развиваться, так что унесли с собой новые идеи.

🟢Про термодинамические аналогии в глубоком обучении — это был номинант на самый неожиданный доклад конференции. Тема казалась нишевой, а собрала полный зал. И было за что. В процессе обучения нейросетей обнаруживается самая настоящая математическая и физическая красота — аналоги температуры, давления, свободной энергии Гиббса. Вау-эффект был у всех 🤯

Белград и нетворкинг. Прогулялись по центральным улицам, съели множество плескавиц и чевапчичей — балканская кухня не подвела. Белград вообще оказался приятным сюрпризом: живой, шумный, с характером. После насыщенных сессий мы выходили в город и наслаждались его богатой архитектурой.

Но пожалуй, самое ценное заключалось в неформальном нетворке с докладчиками и другими участниками. Именно там узнаёшь детали, которые не попадают в слайды: как на самом деле устроены процессы, какие подходы не взлетели, куда смотрят команды дальше.

Если были на OpenTalks или смотрели трансляцию — что зацепило больше всего? Пишите в комментариях ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2110👍5👾2
This media is not supported in your browser
VIEW IN TELEGRAM
Марио в офисе Авито

Как насчёт забега по офису, чтобы проверить свои знания в DS и получить за это мерч? Без паники, выходить из дома для этого не нужно 😀

Мы выпустили свою небольшую игру — Avito Data Quest.

Игра состоит из базовых вопросов по ML и Python, бизнесу и софтам, забега по офису в стиле «Супер Марио» и уже более сложных вопросов по выбранному домену.

Так что тренируем реакцию, переходим по ссылке и следим за турнирной таблицей — 20 марта подведём здесь итоги и 5 игроков с вершины рейтинга получат мерч ⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥10👍4
Продолжаем цикл статей про собеседования — и сегодня расскажем про Python-секцию: что это, зачем и к чему готовиться. Всем привет, с вами Сергей Осокин.

Зачем нужна эта секция? Кто-то скажет, что разработка — удел разработчиков, нейросетей и вайб-кодеров. Но, как и в других компаниях, на плечи DS-инженера в Авито сваливается немало инженерных задач, которые нельзя делегировать. Именно эти навыки мы проверяем на Python-секции. Этап разбит на 2 части: лайв-кодинг и вопросы.

Лайв-кодинг

Кандидат решает задачи на Python в реальном времени в онлайн-редакторе без синтаксических подсказок. Задачи формата leetcode мы сознательно не даём: кандидаты уже научились их щёлкать, а к реальной работе DS-инженера они отношения почти не имеют. Вместо этого даём задачи приземлённые — например, реализовать bag of words (приведено как пример слишком лёгкой задачи). Так мы проверяем и понимание ML, и инженерные способности.

На что обращаем внимание
➡️ Выбор структур данных. Важно понимать, какой тип данных подходит для какой задачи. Хранить словарь для корпуса текстов в связанном списке — ваше право, но общественное осуждение придумано не просто так.

➡️ Качество кода. Любой code style лучше, чем никакой. Имена переменных, сигнатуры функций, camelCase или snake_case — всё влияет на читаемость.

➡️ Понимание задачи. Не бойтесь уточнить условие или разобрать пример «на бумажке». Просто написать код недостаточно — придётся объяснить своё решение.

➡️ Алгоритмическая сложность. Оцениваем асимптотику каждого действия. Ваше решение оптимальное, самое оптимальное или O(N^3)?

На этапе вопросов затрагиваем две области: Python и инфраструктуру.

➡️ Python. Особенности языка нужно знать всем, независимо от специализации (ML/NLP/CV). Кто такой GIL и почему его не зовут на вечеринки? В чём разница между is и ==? Параллелизм, декораторы, нюансы ML-библиотек — всё это в зоне внимания.

➡️ Разработка. Контейнеры, микросервисные архитектуры, CI/CD — инструменты, на которых держится современная инфраструктура (это не только MS Excel).

➡️ Базы данных. В production применяются разные типы БД с разными преимуществами и ограничениями. Даже популярные Python-библиотеки pandas и polars используют разные движки для вычислений.

Опыт разработки (необязательно на Python) — большой плюс, если вы понимаете, зачем выбран тот или иной стек.

Материалы и советы для подготовки
🟢leetcode, codewars и любой другой аналог для подготовки к лайвкодингу

🟢Ваш любимый LLM, который может покритиковать ваш код и подскажет, как лучше отформатировать решение

🟢Если вы никогда не программировали без помощи подсказок IDE, то самое время начать

🟢Обратитесь к документации и гайдам по самым важным инструментам: Docker, SQL, микросервисы, ClickHouse

🟢Списки вопросов наподобие Datacamp для собеседований, где можно найти темы для повторения

P. S. Если у вас есть полезные ссылки на материалы или гайды для подготовки, то поделитесь ими в комментариях. Желаю вам успехов в процессе подготовки!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥175👍54👎3💊2🥴1
Всем привет! Настало время опроса месяца. Сегодня он будет про OpenClaw 🤗 Интересно какая доля наших читателей им пользуется.

Честно признаюсь, что я себе его установил, но так и не настроил 😅 не успеваю сразу все новые инструменты пробовать..
🥴1
Андрей Венжега на SNOW BASE CAMP!

С 19 по 22 марта в Сочи соберутся профессионалы, которые сейчас определяют развитие AI в крупных продуктах.

Андрей Венжега — директор департамента поиска и рекомендаций Авито и другие члены программного комитета кэмпа сформировали актуальную повестку.

Спикеры расскажут о том, что сейчас болит у рынка:
🟢как принимать решения в условиях неопределённости и растущих затрат,
🟢где реально применимы LLM и агенты, а где пока преждевременно,
🟢какая инфраструктура нужна, чтобы масштабировать AI на всю компанию,
🟢как выстроить управление AI-функцией,
🟢что происходит с ролями и компетенциями в AI-First мире.

Событие, которое определяет, как и куда будет двигаться рынок AI в ближайшем будущем.

Подробности на сайте сообщества Southhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124👍3
Чем занимаются DL-инженеры в командах Search Recall и Deep Personalization в Авито?

В карточках пройдём путь от генерации идей до real-time-инференса на GPU-кластерах, который помогает миллионам пользователей быстрее находить подходящие товары, а продавцам — своих покупателей.

Полезные материалы:
📹 Доклад про первый опыт внедрения двухбашенных трансформеров в рекомендации
🚗 Проект LLM-автоописаний объявлений (Search Recall × LLM)
🤟 Матрица компетенций DS-инженеров Авито

Открытые вакансии в наши команды:
Search Recall
Deep Personalization SnR
Deep Personalization MNZ
🔥147👍5🦄1