Доска AI-объявлений
3.71K subscribers
269 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Привет! На связи Виталий Минаев, DS Team Lead в Коммерческом департаменте Авито. Я отвечаю за организацию Data Fest со стороны DS-функции.

✍️ Поделюсь эмоциями с прошлого Data Fest. Это первое мероприятие, которое мы организовывали вместе с командой и в принципе мой первый опыт организации мероприятий такого плана.

📅 У нас были насыщенные 2 месяца подготовки. Мы тогда нацелились сразу на 12 докладов от Авито, которые надо было хорошо подготовить. А ещё на офлайн-день, который надо было грамотно организовать, чтобы всем было максимально комфортно.

Во время подготовки мы несколько раз прогнали каждый доклад, в том числе на DS-митапах, где коллеги из разных DS-направлений задавали вопросы, челленджили докладчиков и помогали советами, как сделать презентации лучше.

А в организации нам помогла очень крутая команда наших devrel'ов, которые сделали всё просто на отлично.

🎯 Результаты Data Fest очень порадовали: на офлайн-день пришли примерно 250 человек и по результатам опроса оценили его на 9+ из 10.

Все остались довольны докладами, общением и атмосферой, которую наша команда смогла создать (да и погода не подкачала, был очень кайфовый теплый летний вечер — приятно вспомнить, смотря на фотки).

💪 Надеемся в этом году выступить ещё сильнее
(в этот раз в планах почти 20 докладов от Авито) и воссоздать ту самую классную атмосферу офлайн-дня.

👋 Ждём наших гостей в субботу в московском офисе Авито! Трансляцию можно будет смотреть онлайн — поделимся ссылкой в этом канале.
🔥275😍4
Подводим итоги Avito ML Cup 2025 и поздравляем победителей!

⚡️Задача «Поиск дублей»
1 место — Krotovuha (0.34777)
2 место — Mr Yellow (0.33701)
3 место — MISIS Neychev Loss (0.32965)

⭐️ Задача «Персональные рекомендации»
1 место — AmazMe (0.22375)
2 место — Vladimir Bazhenov (0.22147)
3 место — test run (0.22132)

▶️ Уже завтра победители выступят у нас на DataFest

Присоединяйтесь к трансляции, чтобы узнать об их решениях и послушать другие выступления:

Трансляция основного трека →

Трансляция соревновательного трека →
🔥10🎉4👀3
Привет!☄️

Делимся атмосферой дата феста, который проходит сейчас у нас в офисе ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
21
Друзья, привет! Это Саша Ледовский, DS Team Lead из монетизации.

Буквально за неделю до начала Data Fest прошла другая очень интересная конференция — IML. Я на ней побывал и даже выступил. В посте делюсь инсайтами и мыслями про три доклада, которые показались наиболее полезными.

👉 Общие впечатления от конфы крайне положительные.
Во-первых, была хорошая организация: идеальный тайминг, хорошая съёмка, комфортное количество людей.

Во-вторых, у ребят был довольно жёсткий отбор докладов и подготовка спикеров, поэтому выступления были хорошего качества. Лично я раза 3 созванивался с программным комитетом, показывая улучшенную версию доклада.

✍️ Понравился рассказ про ML-платформу в Т-Банке. Там ребята отработали боли таких придирчивых пользователей, как я.

Например, частая боль, что с юпитером в ML-платформах можно работать только через браузер: VSCode не подключишь, по ssh не зайдешь. По словам создателей платформы, У Т-Банка это решено: можно и по ssh зайти, и свой VSCode подключить, и свой образ с окружением собрать в два клика.

Инсайт для менеджеров: соотношение разработчиков платформы к DS примерно 1 к 20. Мне кажется, это выгодный размен за то, что DS не тратит время на инфру.

✍️ Запомнился доклад Я.Маркета про «дискавери» рекомендации — это те, что связаны не с вашими последними кликами, а, скорее с вашими долгосрочными интересами.

Реализация опиралась на несколько фичей, но это была не глобальная переделка системы, а, скорее, адаптация существующих подходов. Например, за счёт доработки у стандартного кандгена-трансформера, в котором сильно расширили контекст и перевели в оффлайн.

✍️ Ну и, конечно, мощным был доклад про рекомендации в HeadHunter — рассказ про эволюцию системы более чем за 10 лет. Сейчас рекомендации вакансий дают HH большую часть откликов.

Интересная особенность, что их рекомендации — это практически поиск. Я не задумывался об этом ранее, но кандидаты там заполняют резюме и это, по сути, поисковой запрос. Поэтому одна из их ключевых архитектур — контентный DSSM, который обучается на близости резюме и вакансии.

На этом всё. Надеюсь, вам было интересно. Следите за нашим каналом — будет ещё много инсайтов.
👍1913
Салют! На связи Даня Седашов, Senior DS-инженер из команды Monetization Efficiency.

Сегодня расскажу, как мы принимаем изменения в ранжировании перед запуском A/B-тестов.

Вы когда-нибудь задумывались, какую метрику оптимизирует рекомендательная выдача на Авито? 🤔


Мы в первую очередь заботимся об опыте пользователей, поэтому выдача должна быть релевантной и разнообразной.

Но наши пользователи — это не только покупатели, но и продавцы, и об их опыте мы тоже хотим заботиться.

Здесь встаёт вопрос распределения внимания покупателей, а ещё многие продавцы пользуются услугами продвижения, — это мы тоже должны учесть.

🧠 Получается, что построение выдачи — задача многокритериальной оптимизации. Предположим, мы придумали новую монетизационную механику, которая повышает эффективность продвижения.

Как внедрение такой механики скажется на разнообразии ленты или её релевантности?

🔢 Для оценки эффектов и настройки параметров мы используем офлайн-приёмку. Схема приёмки следующая. Соберём некоторый репрезентативный пул запросов, далее поднимем 2 версии сервиса рекомендаций: один с нашими изменениями, один — без.

Пошлём каждый запрос в обе версии — мы называем это обстрелом — и сравним контрольные и модифицированные выдачи.

🧐 Как сравнивать выдачи? Для каждого объявления мы знаем набор свойств: от какого продавца, из какой категории, какие у него оценки релевантности, кликабельности, ожидаемой выручки и прочего.

По этим свойствам мы можем составить прокси к любой желаемой метрике выдачи и сравнить две версии ранжирования между собой.

✍️ Разберём на примере. При внедрении новой монетизационной механики хотим понять, в какую сторону поменяется релевантность.

Для каждой выдачи считаем сумму по релевантностям отранжированных объявлений, взвешенную на видимость их позиций — эдакий DCG.

Вычисляем, на сколько новые выдачи в среднем отклоняются от контрольных по такой метрике. Например, если разница околонулевая — отлично; в районе −10% — плохой сигнал.


Практически каждое изменение мы проверяем на такой приёмке по большому числу метрик. Также мы используем офлайн-приёмку для подбора параметров выдачи, а ещё такой инструмент оказался очень полезен для дебага.
🔥11👍1051
Всем привет! На связи Рыжков Александр, юнит-лид созданного в Авито AI Lab направления R&D в GenAI.

👋 Во-первых, давайте знакомиться. Присоединился я к Авито совсем недавно, перейдя из Sber AI Lab, где:

— Рулил командой AutoML (LightAutoML — наше детище)
— Участвовал с коллегами в соревнованиях на Kaggle (и стал одним из 10 по миру 4х Kaggle Grandmaster)
— Выступал в роли «патологоанатома по данным»: чинил то, что должно было работать, но почему-то отказывалось

А теперь самое интересное: что мы будем делать в своем R&D и зачем мы нужны? Давайте разбираться вместе!


🧬 Кто мы и что будем делать? Пока что нас немного, но мы «в тельняшках» — активно растём и развиваемся, чтобы создавать новые ML-технологии с использованием cutting-edge научных результатов в следующих областях:

🧠 Генеративного компьютерного зрения (CV)
🗣 Speech-To-Text и Text-To-Speech (TTS)
🧱 Перехода от 2D-изображений к 3D-моделям
🕵️‍♂️ Детекции DeepFake на фото и видео
🔬 ...и других исследовательских направлений

🧭 Зачем мы Авито? Наша основная ценность — как можно раньше увидеть возможности для улучшения существующих технологий и создания новых областей, которые будут полезны бизнесу.

Мы делаем не «ресёрч ради ресёрча», а именно прикладные исследования — находим связки между горячими научными областями и внутренними задачами Авито.

Мы также коллаборируем с DS-командами, чтобы все наши PoC проходили A/B-тесты, становились действующими решениями и новыми продуктами, улучшающими клиентский путь.

✍️ Вместо заключения. Мы сейчас активно нанимаем исследователей и ML-инженеров с опытом чтения научных статей.

Поэтому если чувствуете в себе силы джедая анализа данных, будем рады вашим откликам ↓

Смотреть вакансии →
🔥37👍98👏2
В предыдущем посте (↑) мы познакомились с Сашей, единственным в России 4х Kaggle Grandmaster и руководителем R&D юнита в AI Lab Авито.

А уже в эту среду, 18-го июня в 17:30, можно будет послушать его онлайн-лекцию. Саша расскажет:

🏆 как устроены соревнования на Kaggle
🏆 какие инструменты используют победители
🏆 как эта платформа может помочь в карьере

Зарегистрироваться →

Онлайн-лекция проходит в рамках набора абитуриентов на нашу совместную магистратуру с ВШЭ. У нас, кстати, две магистратуры — одна с МФТИ, другая с ВШЭ, и каждая по-своему классная.

🔹 Магистратура от МФТИ «Прикладное машинное обучение и анализ данных» — это про технику: алгоритмы, архитектуры, инженерия. Тут учатся строить реально мощные ML-системы, которые работают на больших нагрузках.

🔹А вот программа от ВШЭ «Машинное обучение в цифровом продукте» — это про бизнес и продуктовую сторону. Там учат использовать ML для решения задач в реальных проектах: исследовать данные, проверять гипотезы, запускать A/B-тесты и создавать полноценные ML-продукты под рынок.

Скоро расскажем больше о каждой из программ — следите за постами.

Собираетесь заглянуть к Саше на онлайн-лекцию?
👍уже регистрируюсь
🤔 — хожу на лекции только к пятикратным грандмастерам
👀 — мне неактуально
👍139🤔3👀1
Привет! Меня зовут Саша Романенко, я руковожу DS-командой Search Quality в Авито.

Основная цель нашей команды — улучшать опыт пользователей, помогая им быстрее найти нужный товар (или работу и даже недвижимость!).

В Авито есть несколько команд, улучшающих работу поиска. Наша занимается сбором финальной поисковой ленты с учётом всех факторов ранжирования: от предсказаний ML-моделей до бизнес-правил и оценок репутационной системы Авито.

Направления работы

При составлении поисковой выдачи наша команда учитывает множество аспектов.

1️⃣ Характеристики объявлений и запроса. Мы настраиваем баланс между байерским качеством и силой продвижения, которое имеет объявление. В последнее время ведём исследования новых методов построения ленты, оптимизирующих целевые метрики Авито. Здесь мы тесно работаем с командой монетизации.

2️⃣ Продуктовые пожелания. Например, выдача должна быть разнообразной, а объявления из других регионов, но с доставкой, вполне могут быть показаны наряду с локальными объявлениями.

3️⃣ Распределение трафика. Важно, чтобы все объявления имели возможность получить просмотры и контакты.

4️⃣ Расположение объявлений на выдаче. Кроме них в результатах поиска видно и другие элементы, например, рекламу и информационные баннеры. Взаимное расположение всех элементов — отдельная большая задача, которой занимается наша команда.

Особенности работы

⚡️ Highload. Поиск Авито — высоконагруженная система. Для каждого запроса нужно подобрать 2–3 тысячи кандидатов, получить данные по ним и отранжировать, и сделать это всё за полсекунды. Наши DS’ы сами пишут код в production сервисы и тесно взаимодействуют с backend инженерами.

🧪 A/B-тестирование. Решения в компании принимают на основе данных, поэтому все поисковые изменения — как продуктовые, так и технические — сопровождаются оценкой через A/B-тесты.

🎨 Развиваем свои инструменты разработки. Поиск — сложная система, и изменения в нём требуют тщательной проверки. Поэтому мы развиваем внутренние инструменты для автоматизации рутины и оценки изменений поиска — как качественной, так и количественной. Инструментами пользуются все команды, развивающие поисковый стек технологий.
👍166🔥5🤯2
Привет-привет! С вами Катя Солоднёва, DS Researcher (да, в Авито и такие встречаются). Что делают ресёрчеры? Конечно же, пишут статьи.

Так, недавно одну из наших статей приняли на A* конференцию WWW’25. Статья содержит описание первого российского open-source бенчмарка по автобиддингу BAT (Benchmark for Auto-bidding Task) от Avito.

Сейчас расскажу поподробнее, в чём заключалась наша работа.

Представьте: вы разрабатываете крутой алгоритм для автономных машин, а тестируете его на картах Москвы времён Юрия Долгорукого. Примерно так выглядела ситуация с исследованиями автобиддинга до нашей работы.

🤖 Что такое автобиддинг. TL;DR: Продавец хочет больше кликов → даёт деньги платформе → нужно умно распределить денежки по аукционам → profit!

Более развернуто: когда у вас есть бюджет на продвижение, но вы не хотите вручную участвовать в тысячах микро-аукционов каждый день, на помощь приходит автобиддинг.

Алгоритм берёт ваш бюджет и автоматически решает, сколько ставить в каждом конкретном аукционе за место в выдаче.

🤔 Проблема: IPinYou dataset или «10 лет синтетики». Большинство исследований в области автобиддинга используют датасет IPinYou 2014 года. Там всего 9 продавцов (!) и очень мало фичей.

Исследователи от отчаяния начали добавлять туда синтетические фичи, превращая сравнения алгоритмов в что-то среднее между наукой и гаданием на кофейной гуще.

☝️ Наше решение: реальные данные из реального мира.
Мы с коллегами-исследователями, Александрой Хирьяновой и Андреем Пудовиковым решили показать миру новый датасет на реальных данных:

👉 9 000+ продавцов вместо жалких 9
👉 Данные агрегированы на основе миллионов аукционов (VCG и FPA)
👉 Разброс по времени, регионам и микрокатегориям
👉 Никаких синтетических данных — только хардкор реальной жизни

По сути, мы дали комьюнити возможность тестировать алгоритмы в условиях, максимально приближенных к боевым. Как переход от игрушечного полигона к настоящему стрельбищу.

🧠 А что ещё? Чтобы показать, что на наших данных что-то вообще работает, мы добавили к датасету 5 алгоритмов к сравнению. Тем самым получили целый бенчмарк! 3 алгоритма основаны на других работах, а 2 взяты на основе алгоритмов Авито, которые реально тестировались в проде.

✍️ Ссылочки:
Статья на Arxiv →
Код на GitHub →
и рубрика «Пресса о нас»: по ссылке найдёте статью в Forbes

В комментариях выложу наш постер с конфы. А в следующий раз расскажу, как сгоняли на конфу (между прочим, в Австралии), не переключайтесь!
🔥36👏8👍5🎉31
Запись онлайн-лекции по Kaggle

18 июня Саша Рыжков, наш юнит-лид R&D и 4х Kaggle Grandmaster, рассказал, как использовать эту платформу для прокачки навыков и карьерного роста в Data Science.

Смотреть запись →

💡 Про Сашу и AI Lаb Авито писали в недавнем посте.

💡 Это была лекция в рамках набора на нашу совместную магистратуру с ВШЭ.

За новостями для абитуриентов там и на другой нашей магистратуре — в МФТИ — тоже можно следить в телеграме.

Магистратура во ВШЭ →
Магистратура в МФТИ →
❤‍🔥12👀5👍211
Привет-привет! С вами снова Катя Солоднёва, DS Researcher.

В прошлом посте рассказывала про нашу работу, которая прошла на WWW'25. Сейчас расскажу про то, как мы (я и Саша Хирьянова) сгоняли на эту конференцию.

Конференция охватывает всё, что связано с интернетом. Если вкратце, это интересное и насыщенное мероприятие. Изначально кажется, что 25% расписания занимают какие-то каких-то обеды и кофе-брейки, но в эти перерывы можно общаться с другими исследователями, ходить по постер-сессиям или сфоткаться с коалой. Так что особо не продохнуть!

Что мне особенно запомнилось

Довольно редко сталкивалась с докладами или статьями, где фокус не на модели, а на создании качественных датасетов. И я сейчас не про всем известный фича инжениринг или овер/андерсэмплинг в простейшем смысле. Скорее, про умную разметку, продвинутый сэмплинг, автоматизацию создания бенчмарков.

Был целый воркшоп на эту тему, плюс много релевантных статей на постер-сессиях. Вот пара интересных статеек, с авторами которых мне удалось пересечься:

sQuIrRel: как создать тестовый датасет за короткий срок

🤔 Проблема. В Amazon нужно регулярно проверять, насколько хорошо работает система классификации поисковых запросов. Создание качественного тестового датасета вручную — месяцы работы сотен аннотаторов.

Решение. sQuIrRel автоматизирует создание размеченного датасета, используя уже существующие данные компании: поисковые логи, каталог товаров, предобученную BERT-модель релевантности.

На выходе получается датасет формата «беспроводные наушники» — «HEADPHONES», который можно использовать для тестирования промышленных моделей.

🧠 Что здесь такого интересного? Мне понравилось использование LLM, но не втупую (промпт «на тебе название и описание» в дипсик, на выходе получаешь категорию), а по продуманной схеме.

MixRec: элегантное решение проблемы разреженности

🤔 Проблема. Рекомендательные системы страдают от недостатка данных о взаимодействиях пользователей с товарами.

Решение. Создаём искусственные примеры двумя способами:
1. Берём пользователя A и немного «подмешиваем» к нему пользователя B. Получаем пользователя, похожего на А.
2. Берём всех пользователей из батча и создаём «усреднённого». Получаем типичного представителя группы.

🧠 Результаты.
До 5% улучшения по Recall@20, до 12% — для самых разреженных групп пользователей.

Пока все гонятся за новыми архитектурами и SOTA на бенчмарках, умные ребята решают проблемы на уровне данных. Автоматизация создания качественных датасетов, умная аугментация, продвинутые методы сэмплинга — всё это может дать не меньший буст, чем очередной трансформер.

Стоит задуматься!
225👍32
Всем привет! На связи Security Engineer Владимир Аламов.

На прошлой неделе мы с коллегами выступали и общались на Conversations — конференции по генеративному и разговорному AI, — и теперь готовы поделиться самым интересным.

Расскажу об одном докладе и одном обсуждении, которые мне запомнились.

Доклад от red_mad_robot. AI-агенты: реальность vs маркетинг

💡 Главный тезис: 95% компаний, которые говорят про мультиагентные системы и AI-агентов, на самом деле создают обычную автоматизацию бизнес-процессов.

Например, жёстко запрограммированные workflows с несколькими LLM-вызовами или вообще системы с фиксированным набором и последовательностью действий.

🤖 Что должно быть у настоящего агента:
— Автономность: способность самостоятельно принимать решения без жёсткого программирования.
— Самообучение: возможность писать себе новые инструменты и интеграции.
— Адаптивность: доступ к терминалу, возможность модифицировать собственный код.
— Независимость: выполнение задач от имени пользователя без постоянного контроля.

🧠 Пример настоящего агента — Personal Digital Twin, который знает всё о рабочей деятельности человека и может действовать от его имени.

Такой как раз показал директор red_mad_robot: его Digital Twin умеет отвечать за него в чатах и письмах, управлять календарём, мониторить корпоративные системы, проактивно предлагать релевантную информацию.

Обсуждение с коллегами из МТС. Как привлечь сотрудников к тестам внутренних AI-продуктов

💡 Проблема: традиционные методы часто не выявляют всех уязвимостей в системах на основе LLM. Важно применить творческий подход, а для этого нужны люди.

Но с этим сложно. У сотрудников обычно:
— Нет экспертизы в области AI-безопасности.
— Нет мотивации заниматься тестированием внутренних продуктов.
— Нет структурированного подхода к обучению навыкам «этичного взлома» LLM.

🧠 Мы подумали над вариантом обучения вместе с докладчиками из МТС и придумали вот что: внутренний Bug Bounty с геймификацией.

Это программа, которая могла бы обучать сотрудников техникам prompt engineering для выявления уязвимостей в собственных LLM-системах.

Люди в целом склонны искать обходные пути, и это можно использовать на благо корпоративной безопасности. Вместо того чтобы случайно находить уязвимости в рабочих системах, сотрудники могли бы целенаправленно искать их в контролируемой среде.

🧠 Референсная модель — Gandalf.ai — бесплатная образовательная игра от Lakera, где люди должны обманом заставить AI-модель раскрыть секретный пароль.

Скоро коллеги поделятся и другими инсайтами с Conversations — stay tuned
11🔥6👏3👍1😁1
Всем привет! На связи Олег Королёв, руководитель разработки AI Lab Авито.

Продолжаю рубрику впечатлений с Conversations и хочу рассказать о сессии, на которой участвовал — «RnD на стероидах: автономные агенты с суперпамятью, вызовы vibe coding и новая эра кибербезопасности».

Вот ключевые тезисы:

✈️ Турбулентность в сфере ИИ.
За последние 3–4 года скорость изменений в области достигла критической точки: каждую неделю появляется минимум два десятка работ, достойных внимания.

Чтобы следить за трендами, крупные компании создают команды для мониторинга ИИ-новостей, готовят внутренние дайджесты, обучающие мероприятия и платформы для тестирования новых моделей.

🛡 Безопасность и защита данных. Рынок инструментов защиты ИИ-решений находится в зачаточном состоянии.

Вот несколько практических подходов к безопасности:
— Прокси-серверы для контроля запросов к внешним моделям.
— Автоматическое определение персональных данных в промптах.
— Использование локальных моделей для конфиденциальных задач.
— Локализация: компании разворачивают собственные модели с полностью локальным обучением и инференсом, где все данные остаются во внутреннем контуре.

🤖 Кодинг-ассистенты и автоматизация. Ключевые тренды:

Специализация на корпоративном коде. Модели, обученные на кодовой базе компании, значительно эффективнее внешних, потому что понимают специфику стандартов и архитектуры.

Встраивание всего зоопарка генеративных моделей прямо в среду разработки, чтобы разработчик не покидал рабочую среду.

🤖 Агенты и автоматизация бизнес-процессов. Популярные фреймворки: AutoGen, CrewAI, LangChain.

Практические кейсы автоматизации:
— Инцидент-менеджмент.
— Классификация логов.
— Код-ревью.
— Создание unit-тестов.

💡 Вызовы и ограничения. Ложные срабатывания: ассистенты безопасности могут предлагать исправления уязвимостей, которые уже устранены на уровне инфраструктуры.

Увеличение автономности ИИ-систем создает новые риски: неясно, к какой точке устойчивости мы придем в развитии автономных агентов.

Комбинация скриптовых систем с ИИ позволяет контролировать критические процессы, где цена ошибки очень высока. Например, работу с должниками в банке. ИИ может генерировать скрипты, тестировать их и проводить миллионы тестовых диалогов.
🔥86❤‍🔥2🤔21👍1👀1
Чем живут создатели ИИ

Как раз хотели у вас спросить! И запускаем совместный спецпроект вместе с Хабром.

Расскажите:
Какие вы на работе и в жизни? Чем интересуетесь?
Какой у вас профессиональный путь? А планы?
С какими ИИ вы чаще всего взаимодействуете?
И главное — что думаете об ИИ, который создаёте?

Пройдите наш небольшой опрос и добавьте свои штрихи к портрету современного ML-специалиста. А мы потом поделимся итогами.

Пройти опрос →
👍2🔥21❤‍🔥1
Всем привет! Меня зовут Галя Ширанкова, я руковожу продуктовым портфелем в нашем мессенджере.

Закрываю рубрику наблюдений с Conversations: закину ещё порцию инсайтов и поделюсь интересным кейсом внедрения AI.

🤖 Технические инсайты

1️⃣ Главное качество AI-агента — автономность, всё остальное вторично. Вот ключевые характеристики настоящего агента по версии Just AI:
— Проактивность: агент сам инициирует действия
— Адаптация под профиль пользователя
— Адаптация под эмоциональное состояние пользователя
— Гиперперсонализация с пониманием контекста настроения

2️⃣ Не все функции нужно делать через LLM. Простые задачи, например, таймер, эффективнее просто реализовать на бэкенде.

Вот пример от Яндекса. С помощью LLM Алиса определяет, какую функцию вызвать, и чем больше их становится, тем хуже начинает работать эта LLM.

Сейчас в Яндексе активно решают эту проблему. Основная метрика уже не retention, а количество переспросов, то есть раз, когда Алиса не поняла с первого раза. Метрику удалось снизить на 11%.

📈 Инвестиционные тренды

Парадигма оценки AI-стартапов меняется: из-за высоких затрат на внедрение основное внимание уделяют не unit-экономике, а маржинальному доходу.

А ещё инвесторы требуют анализировать не только текущих конкурентов, но и тех, с кем придётся конкурировать после релизов следующих AI-моделей. Например, после обновления GPT стартап может внезапно начать конкурировать с компаниями в 3 раза успешнее.

✍️ Кейс внедрения: Медси


Проблема: пациенты, которые не раз бывали в клинике, ожидают, что врач про них уже всё знает. Но специалисты не успевают проанализировать карту пациента за 20-30 минут приёма.

Решение для врачей от Медси:
— Автоматическая суммаризация медкарты.
— Выделение диагнозов по профилю конкретного врача из прошлых кейсов и категоризация приёмов по диагнозам для быстрой навигации.
— Визуализация анализов в виде графика с таймлайном: например, динамика билирубина.
— Расчёт рисков по международным медицинским классификациям — это шаг к превентивной медицине, которая в будущем сможет вырастить LTV.

Ещё компания работает над AI-помощником для пациентов, где будет та же аналитика. Это меняет бизнес-модель: приложение из простого инструмента записи превращается в систему формирования медицинских потребностей.

💡 Главный инсайт: AI-решения должны создавать новую выручку, а не просто служить для автоматизации процессов. Компании вроде Медси, которым это удаётся, получают кардинальное преимущество.
🔥13👍31
Приглашаем на паблик-толк

Хотим поговорить с вами о синергии между наукой и бизнесом: при каких условиях она рождается, как устроена и какие возможности даёт для молодых исследователей.

📍 Где и когда
Уже завтра, 17 июля в 19:00 в нашем офисе в Москве на Лесной или на онлайн-трансляции.

✍️ Что обсудим
— Что такое RnD в компании
— Зачем бизнесу фундаментальные исследования
— Какие новые задачи появятся у учёных в эпоху ИИ
— Как выбрать между научной карьерой или развитием в бизнесе

👥 С кем будем обсуждать
На встрече будет Иван Оселедец, генеральный директор Института ИИ AIRI и Андрей Рыбинцев, старший директор по ИИ Авито.

👋 Как попасть
Количество мест в офисе ограничено, и мы в первую очередь зовём тех, кто хочет развиваться в RnD и сможет получить пользу от участия в нашем паблик-толке.

Внимательно заполните анкету, а мы обязательно ответим: либо пригласим в офис, либо пришлём ссылку на онлайн-трансляцию.

Зарегистрироваться →
9👌2👀1
Привет! На связи Костя Веснин из юнита LLM, хочу поделиться впечатлениями с недавней «Летней школы по ИИ» от Института AIRI в Томске.

Я пробыл там всего три дня: посмотреть удалось далеко не всё, но надо было возвращаться к работе.

🎓 Сама школа — классная штука, AIRI каждый раз привлекают туда по 40–50 специалистов из DS для лекций и менторства и более 100 студентов. У всех есть время и поучиться, и поделать проекты, и отдохнуть.

✍️ Я читал лекцию про Visual-Language модели. Часть посвятил разбору архитектурных решений, а затем рассказал про наш опыт обучения и внедрения VLM в Авито.

Немного волновался, но, как оказалось, напрасно: ребята в школе классные, в конце задавали интересные вопросы, а после подходили пообщаться.

⚙️ Многие из студентов работают и в работе сталкиваются с задачами VLM. Обсудили с ними, как использовать OCR для чтения с документов, можно ли обрабатывать через VLM целую презентацию или какое количество кропов выбрать, чтобы ускорить модель и не просесть по качеству.

😎 После лекции посидел с организаторами и ребятами из AIRI в кафе, а вечером сходили в кальянную, было время поспрашивать о школе. Все в восторге от Авито за мороженое, которым мы каждый день угощали.

🎤 На следующий день после моей лекции была постерная сессия, где студенты презентовали свои проекты. Очень хотелось туда попасть, но к сожалению, не получилось.

Знаю, что команда с кейсом Авито в итоге победила. Возможно, об этом мы тоже скоро расскажем в канале.

Кстати, в субботу, 19 июля, буду на Turbo ML Conf

Тоже с выступлением про опыт с VLM в Авито. Расскажу, как мы собирали данные для обучения и адаптировали токенизатор, поделюсь техническими деталями.

Ставьте 😎 , если тоже собираетесь ↓
🔥3410😎8👎3💅2🥰1