Доска AI-объявлений
3.72K subscribers
270 photos
4 videos
140 links
Это не душный, а душевный канал про Data Science в Авито. Пишем о том, что у нас происходит, про ML, вакансии, мероприятия.
Download Telegram
Завершаем тему недавней конференции Conversations — хотим рассказать, как получили там премию Generation AI Awards за «Лучший проект в области генеративного AI».

Что за GenAI Awards. Это первая в РФ премия за практические кейсы применения генеративного ИИ. В этом году они получили около 150 заявок, и на Conversations прошла церемония награждения финалистов.

Кто в жюри. Все лидеры GenAI трансформации из ключевых компаний в этой сфере.

О премии →

Что у нас за проект. Собственное семейство LLM, которые легли в основу масштабного внедрения GenAI в наши сервисы.
Причём, внедрения c положительным ROI.

В 2024 году GenAI-продукты принесли 670 млн ₽ выручки при нулевом прогнозе. В планах — увеличение выручки на 21 млрд ₽ к 2028 году, выход в open source и запуск 20+ новых сценариев.

В семейство входит, например, текстовая модель A-Vibe: мы адаптировали её под русский язык и интегрировали в ключевые сценарии во всех 5 наших вертикалях.

Что ещё было на конференции Conversations. Почитать инсайты наших спикеров можно в прошлых постах:

Про AI-агентов →

Про R&D в сфере ИИ →

Про инвестиции и внедрение →
🔥10🤓32👌2👍1
⚠️ Внимание: пост с розыгрышем, условия — в конце ⚠️

В Авито есть принцип work hard play hard: он помогает поддерживать огонь в глазах, балансировать между затуханием и выгоранием.

Сегодня тут будет про play: прошло уже больше половины лета, а это повод для лёгкой рефлексии и смакования приятных воспоминаний.

⛺️ В июне мы отправились в Подмосковье, чтобы налаживать межкомандное взаимодействие aka знакомиться и наслаждаться обществом друг друга не по видео, а в реальном мире. С этим помогли ребята из «Продлёнки».

⛺️ У нас было непростое задание: оставить свои социальные роли и, по возможности, ноутбуки, и снова побыть просто детьми. Азартными, немного шальными и максимально беззаботными.

⛺️ По сути, мы отправились в лагерь — как в детстве, только в комфортабельном отеле и с потрясающими вожатыми, профессионалами творческих профессий и гуманитарных наук.

⛺️ Двух дней выезда хватило, чтобы по-новому взглянуть на коллег и подружиться. Ведь ничто так не сплачивает, как желание получить звание лучшего отряда.

⛺️ Мы готовили выступления, болтали у костра, пели под гитару, просыпались в 8:30 на зарядке под диджей-сеты, перетягивали канаты, делали костюмы и декорации, выбирали DS короля и DS королеву, танцевали до рассвета и очень-очень много смеялись. Пруфы покажем на фото в комментариях к посту.

🤯 А пока мы были на выезде, нас в Доске AI-объявлений стало (уже ощутимо) больше 1 000!

По этому случаю мы хотим разыграть небольшой презент от Авито × «Продлёнки» — эксклюзивный набор карт, который поможет разжечь огонь беседы в любой компании айтишников. Часть карт видно на картинке к посту.

Чтобы выиграть набор, расскажите, как вы любите отдыхать, чтобы не выгорать, особенно таким жарким летом?

Делитесь в комментариях! Через недельку подведём итоги и подарим набор карт случайному комментатору.
🔥15
Коллеги, ненавязчивый пинг...

Если пока не поделились лайфхаками, как отдыхаете этим летом, чтобы не перегорать от работы и температуры за окном, — сейчас отличный момент это сделать:

1️⃣ Оставьте комментарий к предыдущему посту.

2️⃣ Случайный комментатор получит эксклюзивный набор карточек от Авито × «Продлёнки».

🎁 Это не просто карты, а сборник айтишных айсбрейкеров. В каждой — тема для разговора, чтобы легко начать беседу в любой команде, на митапе или просто в компании коллег.

Делитесь своими способами отдыха и вдохновляйтесь чужими впечатлениями: итоги подведём на следующей неделе.

Комментировать прошлый пост →
🫡43👀1
Всем привет! На связи Даня Бочарников, Data Science Engineer из поиска Авито, сегодня хочу обсудить с вами статью ↓

Improving Text Embeddings with Large Language Models by Microsoft, 31 Dec 2023 (v1)

Суть. С парой долларов в карманах, парой GPU и одной open source Mistral 7B можно получить SOTA* мультиязычные текстовые эмбеддинги на MTEB. Он состоит из 56 бенчмарков, в них входят reranking, retrieval, classification и другие.

*Сейчас уже не SOTA. Однако, в топе бенчмарков сейчас LLM эмбеддинги.

Идея крайне простая:

👉 берём публичные датасеты

👉 генерируем задания и ответы с GPT-4

👉 дообучаем open source Mistral 7B

🏋️ В итоге, бьём широко используемый E5-large — модель на 560 миллионов параметров — на 4%.

Подробности

📍 Для обучающего датасета используют публичные датасеты и синтетические датасеты от GPT-4. С помощью GPT-4 генерируют описание заданий по text retrieval.

📍 Для каждого задания у GPT-4 просят сгенерировать триплет: запрос, положительный и негативный примеры для запроса. Примеры генерятся на разных языках. Всего получилось 1.8M.

📍 Обучают LoRA с помощью metric learning на InfoNCE loss, где в качестве эмбеддинга текста используется вектор токена [EOS]. Его добавляют в конец каждого примера.

Обучение длилось 1000 шагов. Ранг LoRA = 16. Использовали ZeRO-3.

Выводы

🧠 Можно сделать хорошие эмбеддинги с помощью генераций от GPT-4. Обучение только на них даёт прирост +1% на MTEB по сравнению с E5.

🧠 Эти эмбеддинги стоит дообучать под задачу. Публичные данные MTEB дали итоговый прирост в 4%.

🧠 Для хороших эмбеддингов русского языка нужна модель с лучшим пониманием русского. Авторы отметили, что получили прирост по сравнению с мультиязычным E5 только на английском.
🔥172👍1
Всем привет! Это снова Даня Бочарников — сегодня продолжим разговор про статьи.

✍️ Недавно опубликовали статьи, принятые на Recsys 2025: смотреть список →

В честь этого анонса хочу поделиться с вами своим кратким саммари главных трендов с прошлого Recsys 2024, куда мне удалось съездить.

Заодно проверим, остаются ли эти наблюдения актуальными.

1️⃣ Перенос практик из NLP в recsys

👉 Попытки ужать словарь моделей до размеров словарей LLM: Semantic IDs.

👉 Замена Deep Learning Recsys моделей на LLM-like штуки. Переход должен привести к смерти фичеинжиниринга.

Читать статью Meta про HSTU и M-Falcon →

2️⃣ Foundational models и embeddings

По статьям кажется, что основное, что делают компании — это обучение эмбеддингов. Неудивительно, так как они используются для отбора кандидатов и участвуют в качестве самой важной фичи в ранжировании.

3️⃣ LLM will change the game

👉 Будущее recsys — ассистенты. Списки умрут.

👉 LLM используют в качестве разметчика, редактора текстов, валидатора.

👉 У LLM заимствуют практики для обучения моделей.

Кстати, именно статья с ассистентом выиграла награду Best Paper в 2024.

4️⃣ Учёт интереса пользователей

👉 Стоит использовать сигналы от долгосрочного и краткосрочного интереса пользователя.

👉 Одна из неизученных проблем — это интенты пользователей. Их можно определять, спрашивая у пользователя через интерфейс.

🤔 Все ли тренды вам кажутся актуальными спустя ≈год? Делитесь в комментариях.
🔥125🤔1
Важно ваше мнение 👋

Закрываем рабочий день приглашением поучаствовать в небольшом опросе.

Консалтинговая компания «ЭКОПСИ» и Хабр уже шестой год подряд составляют рейтинг лучших работодателей в ИТ.

Подробности об исследовании этого года можно почитать в их статье.

💚 Для нас это важное исследование — результаты показывают, как видят команду Авито в инженерном комьюнити.

🎤 В основе исследования — опрос, в котором может поучаствовать любой ИТ-специалист, в том году было 34 000 тысячи респондентов.

🤝 Вы тоже можете поделиться мнением: опрос открыт до 30 августа и займёт около 10 минут.

Пройти опрос →
3👀2
Как узнать настоящую цену AI

Сегодня GenAI, RAG и AI-агенты — это не только про технологии, но и про экономику. На разработку и масштабирование уходит много ресурсов, и бизнесу важно возвращать инвестиции.

На конференции Conversations мы с коллегами из других компаний обсудили экономику GenAI — результат можно посмотреть в выпуске видеоподкаста Conversations with...

💚 От Авито поучаствовала Галя Ширанкова. Впечатлениями с конференции она уже поделилась в другом посте.

💬 В подкасте обсудили, например:
— экономику проектов и способы снизить затраты при масштабировании,
— стратегии дообучения и работу с open source моделями,
— инвестиции в AI (и механику принятия таких решений в Авито),
— переход от исследований к рабочим продуктам.

🎥 Посмотреть:
На VK → | На Rutube →
🔥106👍1😎1
Зовём на AvitoTech Party в Нижнем 🎊

Открываем офис в Нижнем Новгороде и хотим отметить вместе с вами: это отличная возможность изучить город и встретиться в неформальной обстановке.

📍 Когда и где стартуем. 3 сентября в 17:00 — точное место встречи пришлём после регистрации.

⭐️ Что в программе. Городской IT-квест и вечеринка, где подведём итоги, проведём сессии нетворка и Fuckup Night.

👋 Как попасть. Зарегистрируйтесь по ссылке ниже и не стесняйтесь звать друзей: ждём всех, кто занят в IT.

Зарегистрироваться →
🔥64👨‍💻3
Привет! Меня зовут Эдуард Шашков, я младший DS-инженер и студент магистратуры ФПМИ × Авито, закончил первый курс.

Год назад я заканчивал бакалавриат по бизнес-информатике в Новосибирске и делал первые шаги в профессии на стажировках. Весной узнал про несколько подходящих магистратур на Физтехе и поступил на программу Авито.

Хочу пробежаться по главным вопросам, которые задал бы себе сам, когда был абитуриентом.


Какой был отбор. Он состоял из испытания-собеседования от Авито и вступительного экзамена в ФПМИ. Испытания от Авито были скорее прикладными, а экзамен затрагивал более глубокую математику и, по моим ощущениям, был сложнее.

Почему пошёл именно в магу Авито. Я прошёл на несколько программ, но выбрал эту, потому что для меня она была самой интересной с продуктовой стороны.

Программа считается одной из самых интенсивных на Физтехе, но нагрузка оправдана: открываются карьерные перспективы, есть шанс попасть на стажировку и расти в профессии.


Какой предмет был самым крутым. Хочу выделить сразу 3 курса:

👀 Компьютерное Зрение от ШАДа. Самый жёсткий, но хорошо спланированный и организованный курс. Домашки прилетали каждые 1-2 недели, темы — от основ обработки изображений и устройства матрицы камеры до распознавания объектов в видео.

✍️ Сбор, подготовка и разметка данных от Академии Авито — один из самых прикладных курсов на программе. Коллеги рассказывали, как размечать данные внутренними инструментами Авито, внешними инструментами, давали лайфхаки по промпт инженерии, обогащению датасетов эвристиками и дообучению моделей.

💾 Хранение и обработка больших данных от МФТИ. Курс был полезен лично мне, потому что в моей команде активно используют большие данные, работают с Hadoop и Spark.

Тяжёло ли совмещать работу и учебу. Да, но коллеги и наставники знают о вашей учебе и относятся с пониманием, особенно во время сессии.

Что прикольного сделал за время работы. Моя команда работает в сфере рекомендации продвижения.

— Я работал с моделями ранжирования, создавал проекты ручной разметки и авторазметки данных. В результате были созданы рекомендации сопутствующих товаров.

— Ещё занимаюсь ML-прогнозатором продвижения: он подсказывает пользователям, какой примерно результат по разным метрикам они смогут получить. Сейчас с коллегой-наставником работаем над сервисом и создаем ML-модели.

Какие были яркие моменты на программе.
Мне больше всего понравились мероприятия — как с командой, так и с одногруппниками. Например, с одногруппниками играли в пейнтбол, гоняли на картах, рисовали смолой. А с командой выезжали на базы отдыха на Ладожское озеро и в Подмосковье.
17🔥8😎3
Будем рассказывать два интереснейших доклада от монетизации. Домен у докладов один, но технически они про совсем разные вещи.

1️⃣ «Монетизация через оптимизацию: как математика меняет поиск на Авито»

👩 Света Широковских

📍 14 сентября, E-Code

Это история про то, как мы используем комбинаторную оптимизацию, чтобы сформировать финальную выдачу.

Мы уже писали про то, что у нас нет понятия «правильной выдачи» и что выдача — это на самом деле поиск оптимального баланса между качеством, выручкой, частными продавцами и многим другим.

Этот баланс нужно как-то искать, и как раз для этого мы решаем оптимизационную задачу.


2️⃣ «Прогноз CTR поисковых объявлений с помощью нейросетей: опыт и эксперименты AvitoTech»

👨 Антон Семенистый

📍 27 сентября, PracticalML

Так исторически получилось, что на нашем рынке все ранжируют бустингами. И они правда отлично работают. А на международном рынке, если посмотреть доклады бигтеха, люди используют нейросетевые модели.

Сложно ответить, почему так. Одна из гипотез: многие международные компании с логрега перескочили сразу на нейросети.

Нейросетевое ранжирование внедрять непросто. Во-первых, попробуй побей бустинг. А если побил, то нужно держать нагрузку и не разориться на железе.

Мы ещё не прошли нейросетевой путь до конца, но сделали значительные шаги, — Антон в докладе расскажет про наши успехи.
🔥173🤝1
Как рождается VLM 🤖

Недавно Костя Веснин выступил на TurboML Conf — он рассказал, как в Авито обучали и настраивали собственную VLM.

⭐️ Модель используется в проектах автоматической генерации описаний для объявлений и генерации ключевых слов для поискового индекса.

▶️ Выступление можно посмотреть целиком в VK.

А основные тезисы мы собрали в карточках ↓
🔥20👍3💯1