Доска AI-объявлений
3.72K subscribers
269 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Привет! Я тут последнее время хожу и проповедую Cursor и Claude Code 😀 А давайте на этот раз проведем опрос про AI для написания кода
👾6
Привычный ML устаревает, его место скоро займут новые технологии. Что происходит — расскажу я Саша Ледовский, DS-менеджер и один из авторов канала. Сегодня поговорим, как поменяются существующие ML-решения в компаниях и куда, на мой взгляд, мы двигаемся.

🤖 Вы скажете, что сейчас все работают над ассистентами. Это правда, и это огромный тренд. Но прямо сейчас уже есть много работающих ML-систем, которые часто имеют высокую критичность и влияние на бизнес. Что будет с ними?

Сейчас большая часть боевых решений построена на небольшом наборе проверенных технологий. Очень примерно:
📌 бустинги,
📌 берты с дообученными головами и LORA,
📌 CLIP эмбеддинги,
📌 векторный поиск,
📌 в поиске и рекомендациях ALS, DSSM и в крупных компаниях трансформеры типа Bert4Rec.

По моим наблюдениям, LLM-ки всё-таки кардинально изменили существующую расстановку сил. Сейчас их применение сдерживают в первую очередь цена и скорость ответа. Но я уверен, что через год-два в проде станет меньше бертов, промпт с большим контекстом вытеснит векторный поиск, появится LLM-ранжирование выдачи и произойдут другие похожие сдвиги.

Текущий паттерн работы DS инженера меняется. Если раньше расстановка была 95% ML/ 5% LLM. То теперь станет 50 на 50. Согласны?

❤️ — решительное да
💔 — да не, ерунда какая-то
👾 — вообще всё не так! А как надо — расскажу в комментариях
💔3629🤔4
Даже в такую погоду можно найти повод выйти из дома — Avito TeamLead Drinkup #4!

Приглашаем всех в наш офис на Лесной, чтобы понетворкать и обсудить метрики здоровья и перфоманса команды, продажу техдолга и использование AI-агентов на собеседованиях, а также поделиться личными кейсами из практики.

Приходите вы и коллег тоже зовите — ждём всех.

🕐 Когда: 17 февраля в 18:00
📍 Где: Москва, ул. Лесная, 7

Ссылка на регистрацию
🔥63🎉31
В предыдущие выходные заскочил на t-sync conf — мероприятие от Т-Банк. Термин «сonf» предполагает конференцию, но на деле это был необычный формат.

Не прозвучало ни одного доклада, зато были:
📌 хакатон,
📌 куча стендов,
📌 обсуждений и демо от Т-Банка, Сбера, Яндекса и других компаний и университетов.

Заглянуть на все стенды и пообщаться со всеми не смог. Даже в AI-контуре было довольно много общения для меня — не самого разговорчивого человека. Но ребята из Т-Банка очень интересно и подробно поделились своим внутряком:
— про LLM-платформу и, в частности, про RAG-платформу,
— о проблемах, которые уже решили, и до чего доберутся в будущем.

Всё это добро только для своих и, похоже, наружу не выйдет. А жаль — выглядит и звучит впечатляюще!

Вторая интересная активность, в которой я поучаствовал, — инженерные диалоги. Топы из Т-Банка, Сбера, Фланта подискутировали про AI в разработке: как меняются подходы к работе не только у разработчиков, но и у тестировщиков, и даже затронули проблемы найма (да, без волков не обошлось).

Из любопытного

Рафаел Тонаканян выдал инсайд, что в Сбере около 60% разработчиков используют ИИ-инструменты для кодинга, а среди наших подписчиков таких даже больше — горжусь 🤝

Одна из тем, которую подняли на дискуссии, — подходы в ИТ-инженерии возвращаются к истокам. Когда инженер отвечал за всё: от проектирования базы данных до выкатки сервисов в prod. А как вы считаете, мы вернёмся во времена фуллстеков-на-максималках?

❤️ — да
💔 — нет
🙏 — я тоже хочу на такую конфу!
15🙏9💔7
От сотен активных объявлений до сотен… миллионов — как за последние 10 лет эволюционировала разработка в Авито? Как мы пришли к платформизации? Чтобы ответить на эти вопросы, не хватит одной статьи. И поэтому наши коллеги сняли фильм 🎥

Посмотрите, чтобы узнать:
📌 как платформизация стала ответом на быстрый рост компании;
📌 какие собственные инструменты стали частью этого пути;
📌 как появились вертикали;
📌 какие вызовы стоят перед компанией сейчас.

YouTube
ВК Видео
RuTube
7🔥5👍1
Открываем цикл статей про собеседования рассказом о секции по ML-теории.

Вопросы на собеседовании можно разделить на два блока:
🟢Классический ML
🟢DL и специализированный ML

Эти вопросы могут попадать в разные секции, в зависимости от подхода компании:
🔵Объединение классического и специализированного ML
🔵Проведение отдельных секций для каждого блока

А теперь рассмотрим каждый из блоков по отдельности

Классический ML. Эту секцию нужно пройти каждому кандидату, который хочет устроиться на должность Data Science / ML-инженера. На секции проверяют базовые знания ML, без которых сложно выполнять рабочие обязанности, даже если на новой работе предстоит заниматься LLM.

Чтобы успешно пройти этот этап, нужно разбираться в следующих темах:
👉 Типы задач: обучение с учителем, без учителя, с частичным привлечением учителя и тд.
👉 Классы моделей: линейные, «деревянные», метрические, ансамбли, бустинги.
👉 Данные: их представление и качество, табличные данные, типы переменных и тд.
👉 Избранные вопросы: оптимизация, оффлайн-метрики, функции потерь, валидация, переобучение vs. недообучение, bias-variance trade-off, выбор лучших признаков, регуляризация, дисбаланс классов и тд.

DL и специализированный ML. Если кандидат будет работать с более узкими областями ML (NLP, CV, RL, TS, RecSys и тд), ему обязательно зададут соответствующие вопросы, чтобы понять насколько хорошо специалист разбирается в этих сферах.

Во всех областях сейчас активно используют методы глубокого обучения, поэтому ожидайте базовых вопросов по DL: про архитектуру, обучение, функции потерь, инициализацию весов, регуляризацию, оптимизацию, ускорение и тд.

Отметим, заучивание ответов на популярные вопросы — плохой подход! Хороший интервьюер всегда услышит отрепетированный ответ и глубже погрузится в тему, чтобы понять, когда кандидат «поплывёт». Поэтому рекомендую ещё до собеседования лучше изучить темы простых вопросов.

В этом, кстати, могут помочь Gen AI ассистенты — используйте их во время тренировки, но не на собеседовании (это сразу видно).

На этом всё. В следующий раз расскажем про секцию по программированию!

Остался опрос
Я изучаю новую информацию по-старинке: прохожу курсы, читаю книги, смотрю видео и самостоятельно программирую (и для подготовки к собеседованию). А вы?
👾 — Использую Gen AI
✍️ — Занимаюсь по-старинке

💞 Для подготовки к DS собеседованию я создал и поддерживаю репозиторий с материалами, поэтому переходите и прокачивайте знания по ML-теории и другим темам — теперь ваши шансы на успешное собеседование увеличились!
Please open Telegram to view this post
VIEW IN TELEGRAM
👾312810❤‍🔥6🔥1
Как метрики могут как спасти команду, так и разрушить её? 🤔

Мы пообщались с Егором Денисовым-Бланчем, исследователем из Стэнфордского университета и автором методологии измерения продуктивности. Он провёл собственное исследование и выяснил, что в IT-компаниях работает около 9,5% «инженеров-призраков» — тех, кто числится в штате, но фактически не имеет задач.

Как он это выяснил, зачем эта модель нужна руководителям и можно ли точно рассчитать продуктивность разработчика — узнайте в новом выпуске AviTalk ⬇️

YouTube
ВК
RuTube

P.S С каждого не «призрака» по реакции!
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥4👻3👍2👎2
Если вы до сих пор используете одну единственную модель для распознавания русской речи — вы либо гений, либо не знаете про релизы прошлого года, которые меняют наше представление о качестве опенсорс решений для ASR.

Всем привет! На связи Наташа Вареник, DS-инженер команды горизонтальных ML технологий в Авито, занимаюсь звуком, в частности ASR — автоматическим распознаванием речи.

Сегодня расскажу про открытые модели распознавания для русского языка. 2025 год оказался очень щедрым на релизы от российских компаний и лабораторий. И я считаю эти модели хорошими кандидатами для использования из коробки, если нужен быстрый старт и лицензия позволяет.

В области ASR на русском языке конкурируют несколько перспективных направлений: классические CTC и RNN-T Transducer модели, новые Audio LLM, оптимизированные под скорость версии больших моделей, а также проверенные временем инструментарии на базе Kaldi. Каждый из подходов занимает свою интересную нишу. Сравнительный анализ показываю в карточках ⬆️

Ссылки, если хотите узнать больше
GigaAM-v3
Borealis (Vikhr)
T-one CTC
Whisper Podlodka Turbo
Whisper Large-v3 Turbo
Семейство моделей Vosk
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1711👍9🔥4
LLM — Part 4, что нас ждёт в разработке. Всем привет! На связи Данила Бочарников, DS-инженер команды поиска Авито. Продолжаем регулярно сканировать инфополе, чтобы разбирать новости мира ML.

🧑‍💻 Разработчики перестали разрабатывать?
Мы живем в новой реальности. Теперь компании хвастаются тем, что их сотрудники не написали ни строчки кода. Spotify официально заявил: лучшие инженеры компании не кодили с декабря, а скорость разработки фич при этом только выросла.

🇬🇧 Программируем на английском
Вышло интервью с Андреем Бреславом (создателем Kotlin). Сейчас он работает над новым языком программирования, который базируется на обычном английском. Если хотите деталей — вот вам транскрипт и видео.

Андрей смотрит в будущее с огромным оптимизмом и считает, что LLM полностью перевернут то, как мы пишем код.

🤔 Вопрос для размышления: что будет с профессией разработчика дальше?

🔥 — если верите, что мы выходим на новый уровень эффективности и творчества.
🤔 — если видите в этом тотальную автоматизацию и замену людей.

P.S. А вы уже пользуетесь кодовыми агентами в повседневной работе? Делитесь лайфхаками в комментариях.
🔥21🤔13👍1
Крупнейшая AI-конференция восточной Европы

Всем привет! На связи Марк, DS-Engineer в команде LLM. Недавно мы с командой вернулись из Белграда, где посетили OpenTalks.AI 2026 🇷🇸

На этот раз мы приехали практически всей командой LLM — представляли Авито сразу в нескольких докладах.

Что мы привезли. Настя Рысьмятова и Костя Веснин выступили с техническим докладом про A-vibe и A-Vision — наши открытые языковая и мультимодальная модели. Доклад прозвучал в бизнес треке, аудиторию больше всего интересовало:

🔵как именно мы применяем модель внутри Авито,
🔵детали нашего подхода к обучению,
🔵метрики и как подход масштабируется на модели большего размера.

Для аудитории подход с полным циклом обучения модели для нескольких сценариев внутреннего использования показался новым, из зала задавали много вопросов о бизнес-применениях модели. Узнать подробности про A-vibe можно в статье на Хабре.

Что зацепило из чужих докладов. Все выступления были на очень высоком уровне подготовки, но особенно запомнились два:

🟢Про иерархическую модификацию GRPO для диалоговых агентов, как раз та область, в которой мы хотим активно развиваться, так что унесли с собой новые идеи.

🟢Про термодинамические аналогии в глубоком обучении — это был номинант на самый неожиданный доклад конференции. Тема казалась нишевой, а собрала полный зал. И было за что. В процессе обучения нейросетей обнаруживается самая настоящая математическая и физическая красота — аналоги температуры, давления, свободной энергии Гиббса. Вау-эффект был у всех 🤯

Белград и нетворкинг. Прогулялись по центральным улицам, съели множество плескавиц и чевапчичей — балканская кухня не подвела. Белград вообще оказался приятным сюрпризом: живой, шумный, с характером. После насыщенных сессий мы выходили в город и наслаждались его богатой архитектурой.

Но пожалуй, самое ценное заключалось в неформальном нетворке с докладчиками и другими участниками. Именно там узнаёшь детали, которые не попадают в слайды: как на самом деле устроены процессы, какие подходы не взлетели, куда смотрят команды дальше.

Если были на OpenTalks или смотрели трансляцию — что зацепило больше всего? Пишите в комментариях ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2110👍5👾2
This media is not supported in your browser
VIEW IN TELEGRAM
Марио в офисе Авито

Как насчёт забега по офису, чтобы проверить свои знания в DS и получить за это мерч? Без паники, выходить из дома для этого не нужно 😀

Мы выпустили свою небольшую игру — Avito Data Quest.

Игра состоит из базовых вопросов по ML и Python, бизнесу и софтам, забега по офису в стиле «Супер Марио» и уже более сложных вопросов по выбранному домену.

Так что тренируем реакцию, переходим по ссылке и следим за турнирной таблицей — 20 марта подведём здесь итоги и 5 игроков с вершины рейтинга получат мерч ⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥10👍4
Продолжаем цикл статей про собеседования — и сегодня расскажем про Python-секцию: что это, зачем и к чему готовиться. Всем привет, с вами Сергей Осокин.

Зачем нужна эта секция? Кто-то скажет, что разработка — удел разработчиков, нейросетей и вайб-кодеров. Но, как и в других компаниях, на плечи DS-инженера в Авито сваливается немало инженерных задач, которые нельзя делегировать. Именно эти навыки мы проверяем на Python-секции. Этап разбит на 2 части: лайв-кодинг и вопросы.

Лайв-кодинг

Кандидат решает задачи на Python в реальном времени в онлайн-редакторе без синтаксических подсказок. Задачи формата leetcode мы сознательно не даём: кандидаты уже научились их щёлкать, а к реальной работе DS-инженера они отношения почти не имеют. Вместо этого даём задачи приземлённые — например, реализовать bag of words (приведено как пример слишком лёгкой задачи). Так мы проверяем и понимание ML, и инженерные способности.

На что обращаем внимание
➡️ Выбор структур данных. Важно понимать, какой тип данных подходит для какой задачи. Хранить словарь для корпуса текстов в связанном списке — ваше право, но общественное осуждение придумано не просто так.

➡️ Качество кода. Любой code style лучше, чем никакой. Имена переменных, сигнатуры функций, camelCase или snake_case — всё влияет на читаемость.

➡️ Понимание задачи. Не бойтесь уточнить условие или разобрать пример «на бумажке». Просто написать код недостаточно — придётся объяснить своё решение.

➡️ Алгоритмическая сложность. Оцениваем асимптотику каждого действия. Ваше решение оптимальное, самое оптимальное или O(N^3)?

На этапе вопросов затрагиваем две области: Python и инфраструктуру.

➡️ Python. Особенности языка нужно знать всем, независимо от специализации (ML/NLP/CV). Кто такой GIL и почему его не зовут на вечеринки? В чём разница между is и ==? Параллелизм, декораторы, нюансы ML-библиотек — всё это в зоне внимания.

➡️ Разработка. Контейнеры, микросервисные архитектуры, CI/CD — инструменты, на которых держится современная инфраструктура (это не только MS Excel).

➡️ Базы данных. В production применяются разные типы БД с разными преимуществами и ограничениями. Даже популярные Python-библиотеки pandas и polars используют разные движки для вычислений.

Опыт разработки (необязательно на Python) — большой плюс, если вы понимаете, зачем выбран тот или иной стек.

Материалы и советы для подготовки
🟢leetcode, codewars и любой другой аналог для подготовки к лайвкодингу

🟢Ваш любимый LLM, который может покритиковать ваш код и подскажет, как лучше отформатировать решение

🟢Если вы никогда не программировали без помощи подсказок IDE, то самое время начать

🟢Обратитесь к документации и гайдам по самым важным инструментам: Docker, SQL, микросервисы, ClickHouse

🟢Списки вопросов наподобие Datacamp для собеседований, где можно найти темы для повторения

P. S. Если у вас есть полезные ссылки на материалы или гайды для подготовки, то поделитесь ими в комментариях. Желаю вам успехов в процессе подготовки!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥175👍54👎3💊2🥴1
Всем привет! Настало время опроса месяца. Сегодня он будет про OpenClaw 🤗 Интересно какая доля наших читателей им пользуется.

Честно признаюсь, что я себе его установил, но так и не настроил 😅 не успеваю сразу все новые инструменты пробовать..
🥴1