Доска AI-объявлений

Завершаем тему недавней конференции Conversations — хотим рассказать, как получили там премию Generation AI Awards за «Лучший проект в области генеративного AI».

❓ Что за GenAI Awards. Это первая в РФ премия за практические кейсы применения генеративного ИИ. В этом году они получили около 150 заявок, и на Conversations прошла церемония награждения финалистов.

❓ Кто в жюри. Все лидеры GenAI трансформации из ключевых компаний в этой сфере.

О премии →

❓ Что у нас за проект. Собственное семейство LLM, которые легли в основу масштабного внедрения GenAI в наши сервисы.
Причём, внедрения c положительным ROI.

В 2024 году GenAI-продукты принесли 670 млн ₽ выручки при нулевом прогнозе. В планах — увеличение выручки на 21 млрд ₽ к 2028 году, выход в open source и запуск 20+ новых сценариев.

В семейство входит, например, текстовая модель A-Vibe: мы адаптировали её под русский язык и интегрировали в ключевые сценарии во всех 5 наших вертикалях.

❓ Что ещё было на конференции Conversations. Почитать инсайты наших спикеров можно в прошлых постах:

Про AI-агентов →

Про R&D в сфере ИИ →

Про инвестиции и внедрение →

🔥10🤓3❤2👌2👍1

1.65K views14:16

Доска AI-объявлений

⚠️ Внимание: пост с розыгрышем, условия — в конце ⚠️

В Авито есть принцип work hard play hard: он помогает поддерживать огонь в глазах, балансировать между затуханием и выгоранием.

Сегодня тут будет про play: прошло уже больше половины лета, а это повод для лёгкой рефлексии и смакования приятных воспоминаний.

⛺️ В июне мы отправились в Подмосковье, чтобы налаживать межкомандное взаимодействие aka знакомиться и наслаждаться обществом друг друга не по видео, а в реальном мире. С этим помогли ребята из «Продлёнки».

⛺️ У нас было непростое задание: оставить свои социальные роли и, по возможности, ноутбуки, и снова побыть просто детьми. Азартными, немного шальными и максимально беззаботными.

⛺️ По сути, мы отправились в лагерь — как в детстве, только в комфортабельном отеле и с потрясающими вожатыми, профессионалами творческих профессий и гуманитарных наук.

⛺️ Двух дней выезда хватило, чтобы по-новому взглянуть на коллег и подружиться. Ведь ничто так не сплачивает, как желание получить звание лучшего отряда.

⛺️ Мы готовили выступления, болтали у костра, пели под гитару, просыпались в 8:30 на зарядке под диджей-сеты, перетягивали канаты, делали костюмы и декорации, выбирали DS короля и DS королеву, танцевали до рассвета и очень-очень много смеялись. Пруфы покажем на фото в комментариях к посту.

🤯 А пока мы были на выезде, нас в Доске AI-объявлений стало (уже ощутимо) больше 1 000!

По этому случаю мы хотим разыграть небольшой презент от Авито × «Продлёнки» — эксклюзивный набор карт, который поможет разжечь огонь беседы в любой компании айтишников. Часть карт видно на картинке к посту.

Чтобы выиграть набор, расскажите, как вы любите отдыхать, чтобы не выгорать, особенно таким жарким летом?

Делитесь в комментариях! Через недельку подведём итоги и подарим набор карт случайному комментатору.

🔥15

1.55K views16:19

Доска AI-объявлений

Коллеги, ненавязчивый пинг...

Если пока не поделились лайфхаками, как отдыхаете этим летом, чтобы не перегорать от работы и температуры за окном, — сейчас отличный момент это сделать:

1️⃣ Оставьте комментарий к предыдущему посту.

2️⃣ Случайный комментатор получит эксклюзивный набор карточек от Авито × «Продлёнки».

🎁 Это не просто карты, а сборник айтишных айсбрейкеров. В каждой — тема для разговора, чтобы легко начать беседу в любой команде, на митапе или просто в компании коллег.

Делитесь своими способами отдыха и вдохновляйтесь чужими впечатлениями: итоги подведём на следующей неделе.

Комментировать прошлый пост →

🫡4⚡3👀1

1.61K viewsedited 14:46

Доска AI-объявлений

ИИ уже среди нас 🔥

Собрали продукты, в которых наша LLM уже помогает людям продавать, договариваться о сделках и просто общаться.

✍️ Если хочется ещё больше погрузиться в тему, загляните на Хабр.

Там есть статьи о том, как мы:

Создали алгоритм мэтчинга для Авито Работы →

Научили модель определять номер СТС на фото →

Разработали модель, которая генерирует описания товаров →

Научили модель определять категорию товара по описанию →

Придумали способ автомодерации изображений →

Помогли исполнителям получать больше заказов →

Ищем дубликаты в базах данных при помощи ML и GPT →

🔥12

1.38K views15:35

Доска AI-объявлений

Всем привет! На связи Даня Бочарников, Data Science Engineer из поиска Авито, сегодня хочу обсудить с вами статью ↓

Improving Text Embeddings with Large Language Models by Microsoft, 31 Dec 2023 (v1)

Суть. С парой долларов в карманах, парой GPU и одной open source Mistral 7B можно получить SOTA* мультиязычные текстовые эмбеддинги на MTEB. Он состоит из 56 бенчмарков, в них входят reranking, retrieval, classification и другие.

*Сейчас уже не SOTA. Однако, в топе бенчмарков сейчас LLM эмбеддинги.

Идея крайне простая:

👉 берём публичные датасеты

👉 генерируем задания и ответы с GPT-4

👉 дообучаем open source Mistral 7B

🏋️ В итоге, бьём широко используемый E5-large — модель на 560 миллионов параметров — на 4%.

Подробности

📍 Для обучающего датасета используют публичные датасеты и синтетические датасеты от GPT-4. С помощью GPT-4 генерируют описание заданий по text retrieval.

📍 Для каждого задания у GPT-4 просят сгенерировать триплет: запрос, положительный и негативный примеры для запроса. Примеры генерятся на разных языках. Всего получилось 1.8M.

📍 Обучают LoRA с помощью metric learning на InfoNCE loss, где в качестве эмбеддинга текста используется вектор токена [EOS]. Его добавляют в конец каждого примера.

Обучение длилось 1000 шагов. Ранг LoRA = 16. Использовали ZeRO-3.

Выводы

🧠 Можно сделать хорошие эмбеддинги с помощью генераций от GPT-4. Обучение только на них даёт прирост +1% на MTEB по сравнению с E5.

🧠 Эти эмбеддинги стоит дообучать под задачу. Публичные данные MTEB дали итоговый прирост в 4%.

🧠 Для хороших эмбеддингов русского языка нужна модель с лучшим пониманием русского. Авторы отметили, что получили прирост по сравнению с мультиязычным E5 только на английском.

🔥17❤2👍1

1.4K views14:46

Доска AI-объявлений

Всем привет! Это снова Даня Бочарников — сегодня продолжим разговор про статьи.

✍️ Недавно опубликовали статьи, принятые на Recsys 2025: смотреть список →

В честь этого анонса хочу поделиться с вами своим кратким саммари главных трендов с прошлого Recsys 2024, куда мне удалось съездить.

Заодно проверим, остаются ли эти наблюдения актуальными.

1️⃣ Перенос практик из NLP в recsys

👉 Попытки ужать словарь моделей до размеров словарей LLM: Semantic IDs.

👉 Замена Deep Learning Recsys моделей на LLM-like штуки. Переход должен привести к смерти фичеинжиниринга.

Читать статью Meta про HSTU и M-Falcon →

2️⃣ Foundational models и embeddings

По статьям кажется, что основное, что делают компании — это обучение эмбеддингов. Неудивительно, так как они используются для отбора кандидатов и участвуют в качестве самой важной фичи в ранжировании.

3️⃣ LLM will change the game

👉 Будущее recsys — ассистенты. Списки умрут.

👉 LLM используют в качестве разметчика, редактора текстов, валидатора.

👉 У LLM заимствуют практики для обучения моделей.

Кстати, именно статья с ассистентом выиграла награду Best Paper в 2024.

4️⃣ Учёт интереса пользователей

👉 Стоит использовать сигналы от долгосрочного и краткосрочного интереса пользователя.

👉 Одна из неизученных проблем — это интенты пользователей. Их можно определять, спрашивая у пользователя через интерфейс.

🤔 Все ли тренды вам кажутся актуальными спустя ≈год? Делитесь в комментариях.

🔥12❤5🤔1

1.63K views14:56

Доска AI-объявлений

Хабр

Новая битва IT-брендов работодателей от Хабра и ЭКОПСИ

Привет всем айтишникам на Хабре!Время стремительно летит вперёд, и вот уже пришла пора актуализировать рейтинг IT-брендов работодателей России (результаты 2024 года). В этом году Хабр и ЭКОПСИ будут уже в шестой раз подряд сравнивать IT-бренды работодателей…

Важно ваше мнение 👋

Закрываем рабочий день приглашением поучаствовать в небольшом опросе.

Консалтинговая компания «ЭКОПСИ» и Хабр уже шестой год подряд составляют рейтинг лучших работодателей в ИТ.

Подробности об исследовании этого года можно почитать в их статье.

💚 Для нас это важное исследование — результаты показывают, как видят команду Авито в инженерном комьюнити.

🎤 В основе исследования — опрос, в котором может поучаствовать любой ИТ-специалист, в том году было 34 000 тысячи респондентов.

🤝 Вы тоже можете поделиться мнением: опрос открыт до 30 августа и займёт около 10 минут.

Пройти опрос →

❤3👀2

1.81K viewsedited 14:46

Доска AI-объявлений

VK Видео

Cost of AI: как российские компании балансируют между инновациями и затратами на genAI?

Кажется, сегодня уже очевидно, что GenAI и все ему сопутствующее: RAG, AI-агенты и т.д. — всё это не только про инновации, но и про деньги: инвестиции, дорогостоящая разработка, окупаемость и новые источники прибыли. В этом выпуске Азер Шахвердиев из Контура…

Как узнать настоящую цену AI

Сегодня GenAI, RAG и AI-агенты — это не только про технологии, но и про экономику. На разработку и масштабирование уходит много ресурсов, и бизнесу важно возвращать инвестиции.

На конференции Conversations мы с коллегами из других компаний обсудили экономику GenAI — результат можно посмотреть в выпуске видеоподкаста Conversations with...

💚 От Авито поучаствовала Галя Ширанкова. Впечатлениями с конференции она уже поделилась в другом посте.

💬 В подкасте обсудили, например:
— экономику проектов и способы снизить затраты при масштабировании,
— стратегии дообучения и работу с open source моделями,
— инвестиции в AI (и механику принятия таких решений в Авито),
— переход от исследований к рабочим продуктам.

🎥 Посмотреть:
На VK → | На Rutube →

🔥10❤6👍1😎1

1.77K views14:31

Доска AI-объявлений

Зовём на AvitoTech Party в Нижнем 🎊

Открываем офис в Нижнем Новгороде и хотим отметить вместе с вами: это отличная возможность изучить город и встретиться в неформальной обстановке.

📍 Когда и где стартуем. 3 сентября в 17:00 — точное место встречи пришлём после регистрации.

⭐️ Что в программе. Городской IT-квест и вечеринка, где подведём итоги, проведём сессии нетворка и Fuckup Night.

👋 Как попасть. Зарегистрируйтесь по ссылке ниже и не стесняйтесь звать друзей: ждём всех, кто занят в IT.

Зарегистрироваться →

🔥6❤4👨‍💻3

1.58K views16:06

Доска AI-объявлений

Привет! Меня зовут Эдуард Шашков, я младший DS-инженер и студент магистратуры ФПМИ × Авито, закончил первый курс.

Год назад я заканчивал бакалавриат по бизнес-информатике в Новосибирске и делал первые шаги в профессии на стажировках. Весной узнал про несколько подходящих магистратур на Физтехе и поступил на программу Авито.

Хочу пробежаться по главным вопросам, которые задал бы себе сам, когда был абитуриентом.

Какой был отбор. Он состоял из испытания-собеседования от Авито и вступительного экзамена в ФПМИ. Испытания от Авито были скорее прикладными, а экзамен затрагивал более глубокую математику и, по моим ощущениям, был сложнее.

Почему пошёл именно в магу Авито. Я прошёл на несколько программ, но выбрал эту, потому что для меня она была самой интересной с продуктовой стороны.

Программа считается одной из самых интенсивных на Физтехе, но нагрузка оправдана: открываются карьерные перспективы, есть шанс попасть на стажировку и расти в профессии.

Какой предмет был самым крутым. Хочу выделить сразу 3 курса:

👀 Компьютерное Зрение от ШАДа. Самый жёсткий, но хорошо спланированный и организованный курс. Домашки прилетали каждые 1-2 недели, темы — от основ обработки изображений и устройства матрицы камеры до распознавания объектов в видео.

✍️ Сбор, подготовка и разметка данных от Академии Авито — один из самых прикладных курсов на программе. Коллеги рассказывали, как размечать данные внутренними инструментами Авито, внешними инструментами, давали лайфхаки по промпт инженерии, обогащению датасетов эвристиками и дообучению моделей.

💾 Хранение и обработка больших данных от МФТИ. Курс был полезен лично мне, потому что в моей команде активно используют большие данные, работают с Hadoop и Spark.

Тяжёло ли совмещать работу и учебу. Да, но коллеги и наставники знают о вашей учебе и относятся с пониманием, особенно во время сессии.

Что прикольного сделал за время работы. Моя команда работает в сфере рекомендации продвижения.

— Я работал с моделями ранжирования, создавал проекты ручной разметки и авторазметки данных. В результате были созданы рекомендации сопутствующих товаров.

— Ещё занимаюсь ML-прогнозатором продвижения: он подсказывает пользователям, какой примерно результат по разным метрикам они смогут получить. Сейчас с коллегой-наставником работаем над сервисом и создаем ML-модели.

Какие были яркие моменты на программе. Мне больше всего понравились мероприятия — как с командой, так и с одногруппниками. Например, с одногруппниками играли в пейнтбол, гоняли на картах, рисовали смолой. А с командой выезжали на базы отдыха на Ладожское озеро и в Подмосковье.

❤17🔥8😎3

1.46K views15:26

Доска AI-объявлений

Будем рассказывать два интереснейших доклада от монетизации. Домен у докладов один, но технически они про совсем разные вещи.

1️⃣ «Монетизация через оптимизацию: как математика меняет поиск на Авито»

👩 Света Широковских

📍 14 сентября, E-Code

Это история про то, как мы используем комбинаторную оптимизацию, чтобы сформировать финальную выдачу.

Мы уже писали про то, что у нас нет понятия «правильной выдачи» и что выдача — это на самом деле поиск оптимального баланса между качеством, выручкой, частными продавцами и многим другим.

Этот баланс нужно как-то искать, и как раз для этого мы решаем оптимизационную задачу.

2️⃣ «Прогноз CTR поисковых объявлений с помощью нейросетей: опыт и эксперименты AvitoTech»

👨 Антон Семенистый

📍 27 сентября, PracticalML

Так исторически получилось, что на нашем рынке все ранжируют бустингами. И они правда отлично работают. А на международном рынке, если посмотреть доклады бигтеха, люди используют нейросетевые модели.

Сложно ответить, почему так. Одна из гипотез: многие международные компании с логрега перескочили сразу на нейросети.

Нейросетевое ранжирование внедрять непросто. Во-первых, попробуй побей бустинг. А если побил, то нужно держать нагрузку и не разориться на железе.

Мы ещё не прошли нейросетевой путь до конца, но сделали значительные шаги, — Антон в докладе расскажет про наши успехи.

🔥17❤3🤝1

1.32K views14:59

Доска AI-объявлений

Как рождается VLM 🤖

Недавно Костя Веснин выступил на TurboML Conf — он рассказал, как в Авито обучали и настраивали собственную VLM.

⭐️ Модель используется в проектах автоматической генерации описаний для объявлений и генерации ключевых слов для поискового индекса.

▶️ Выступление можно посмотреть целиком в VK.

А основные тезисы мы собрали в карточках ↓

🔥20👍3💯1

1.3K views15:30

About

Blog

Apps

Platform