В мае на DataFest у нас прошла панельная дискуссия «Мифы и правда о соревновательном ML». Мастера и гранд-мастера Kaggle рассказали о своём участии в соревнованиях и обсудили острые вопросы.
Несколько главных мыслей мы собрали в карточки, но если хотите узнать больше нюансов и послушать байки — посмотрите дискуссию, видео длится около часа:
📌 YouTube
📌 Rutube
📌 VK
Следить за спикерами на Kaggle:
🌟 Саша Рыжков
🌟 Саша Гущин
🌟 Дима Симаков
🌟 Миша Каменщиков
Несколько главных мыслей мы собрали в карточки, но если хотите узнать больше нюансов и послушать байки — посмотрите дискуссию, видео длится около часа:
📌 YouTube
📌 Rutube
📌 VK
Следить за спикерами на Kaggle:
🌟 Саша Рыжков
🌟 Саша Гущин
🌟 Дима Симаков
🌟 Миша Каменщиков
🔥13👍5
Недавно мы вместе с Хабром провели исследование, как DS-инженеры используют искусственный интеллект в работе и повседневной жизни. Разобрались, какие задачи уже доверяют нейросетям и как относятся к ИИ.
Ключевые инсайты собрали в карточки, а подробности про исследование уже можно почитать, например, в этой статье🚀
Ключевые инсайты собрали в карточки, а подробности про исследование уже можно почитать, например, в этой статье
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤🔥3
Live с Practical ML🚀
Ходили послушать и поддержать Антона Семенистого, выступавшего с докладом про DL CTR модели в поиске. Более того, у Антона сегодня день рождения.
Антон, поздравляем тебя и желаем плодотворной творческой работы и успехов!🎉
Ходили послушать и поддержать Антона Семенистого, выступавшего с докладом про DL CTR модели в поиске. Более того, у Антона сегодня день рождения.
Антон, поздравляем тебя и желаем плодотворной творческой работы и успехов!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29🎉5❤3👍1🤪1
Привет! Я Сергей Кляхандлер, техлид в команде LLM Авито. Мы с коллегами продолжаем разрабатывать мультимодальную модель для улучшения поисковой выдачи на платформе. В прошлом году научили её создавать автоописания для объявлений, чтобы упростить жизнь продавцам.
Когда продавец загружал фотографии на сервис, модель анализировала главное фото и предлагала шаблон описания. Оставалось только добавить размеры и немного отредактировать текст при желании. В этом году мы чуть изменили подход и добавили дополнительную функцию.
Как теперь обстоят дела с автоописанием
1️⃣ Научили модель анализировать все фото из объявления, а не только одно. Теперь она предлагает более полные и точные тексты.
2️⃣ Избавились от излишней «сухости» в описаниях. Они стали живее и понятнее, при этом информативность осталась на прежнем высоком уровне.
🎉 Результат: +5.7% к использованию сервиса, а продавцы на 10.8% чаще получают подходящий текст с первого раза.
Что мы придумали ещё
Ещё один проект инициировала команда Поиска. Вместе с командой LLM, в нём участвовала инженер Камила Алибаева и тимлид — Илья Валяев.
Мы переиспользовали подход, чтобы решить другую проблему — неполную индексацию объявлений. Некоторые продавцы описывают не все характеристики товара или используют непопулярные слова-синонимы.
🎉 Результат: покупатели стали видеть на 22% больше релевантных объявлений, а количество уникальных пар «покупатель-продавец» выросло на 0.8%.
Подробный разбор с техническими деталями и цифрами читайте в моей статье на Хабре.
А если у вас есть идеи, что ещё можно улучшить — welcome в комментарии! 👇
Когда продавец загружал фотографии на сервис, модель анализировала главное фото и предлагала шаблон описания. Оставалось только добавить размеры и немного отредактировать текст при желании. В этом году мы чуть изменили подход и добавили дополнительную функцию.
Как теперь обстоят дела с автоописанием
1️⃣ Научили модель анализировать все фото из объявления, а не только одно. Теперь она предлагает более полные и точные тексты.
2️⃣ Избавились от излишней «сухости» в описаниях. Они стали живее и понятнее, при этом информативность осталась на прежнем высоком уровне.
🎉 Результат: +5.7% к использованию сервиса, а продавцы на 10.8% чаще получают подходящий текст с первого раза.
Что мы придумали ещё
Ещё один проект инициировала команда Поиска. Вместе с командой LLM, в нём участвовала инженер Камила Алибаева и тимлид — Илья Валяев.
Мы переиспользовали подход, чтобы решить другую проблему — неполную индексацию объявлений. Некоторые продавцы описывают не все характеристики товара или используют непопулярные слова-синонимы.
Например, куртку цвета хаки описывают как зелёную. В итоге покупатель, который ищет куртку хаки, это объявление не видит, хотя оно подходит.
Теперь наша модель анализирует главное фото и генерирует дополнительные ключевые слова, которые не указал продавец. Эти слова добавляются в поисковый индекс сервиса, а наш покупатель, который ищет куртку хаки, теперь увидит объявление и с зелёной курткой тоже.
🎉 Результат: покупатели стали видеть на 22% больше релевантных объявлений, а количество уникальных пар «покупатель-продавец» выросло на 0.8%.
Подробный разбор с техническими деталями и цифрами читайте в моей статье на Хабре.
А если у вас есть идеи, что ещё можно улучшить — welcome в комментарии! 👇
🔥20👍6
👋 Всем привет! DataFest давно прошёл, а мы ничего не показали! Исправляемся. Отобрали 10 докладов и оставили ссылки на них в одном месте, чтобы вам не искать. Читайте описания и выбирайте интересные выступления.
Вот что можно посмотреть:
👉 Какие LLM уже разработали наши инженеры.
👉 Как мы интегрируем нейросети в продукты и рабочие процессы.
👉 Как применяем ML.
👉 Как стажируются и растут DS-инженеры в Авито.
👉 Бонус: открытый диалог мастеров по Kaggle о том, какие мифы существуют вокруг соревновательного ML.
Заходите в статью и выбирайте интересные доклады
Приятного просмотра 🙂
Вот что можно посмотреть:
👉 Какие LLM уже разработали наши инженеры.
👉 Как мы интегрируем нейросети в продукты и рабочие процессы.
👉 Как применяем ML.
👉 Как стажируются и растут DS-инженеры в Авито.
👉 Бонус: открытый диалог мастеров по Kaggle о том, какие мифы существуют вокруг соревновательного ML.
Заходите в статью и выбирайте интересные доклады
Приятного просмотра 🙂
🔥12👍5🤝1
👀 На горизонте видна возможность интересной работы 👀
Если вы DS-инженер уровня middle+ и хотите работать в бигтехе — то приглашаем на осенний Weekend Offer в Авито. Сможете пройти все HR-этапы в ускоренном режиме и получите возможность дойти до оффера.
Что получите, если придёте на WO:
✔️ Обратную связь от команд сразу после собеседования.
✔️ Вероятность оффера через два дня после первого интервью.
✔️ Возможность попробовать себя в разных командах.
Что мы ждём от участников:
📌 Не менее трёх лет опыта в Data Science.
📌 Стек — NLP или классический ML.
Почему у нас классно:
Авито — большой продукт, которым пользуется каждый третий житель России. У нас развитая инфраструктура для разработки и обучения LLM, современные технические решения и, конечно, все айтишные плюшки: мощное железо, отличный офис или удалёнка, дополнительные дни отпуска.
→ Регистрируйтесь на мероприятие и отправляйте свои анкеты до 10 октября
Если вы DS-инженер уровня middle+ и хотите работать в бигтехе — то приглашаем на осенний Weekend Offer в Авито. Сможете пройти все HR-этапы в ускоренном режиме и получите возможность дойти до оффера.
Что получите, если придёте на WO:
✔️ Обратную связь от команд сразу после собеседования.
✔️ Вероятность оффера через два дня после первого интервью.
✔️ Возможность попробовать себя в разных командах.
Что мы ждём от участников:
📌 Не менее трёх лет опыта в Data Science.
📌 Стек — NLP или классический ML.
Почему у нас классно:
Авито — большой продукт, которым пользуется каждый третий житель России. У нас развитая инфраструктура для разработки и обучения LLM, современные технические решения и, конечно, все айтишные плюшки: мощное железо, отличный офис или удалёнка, дополнительные дни отпуска.
→ Регистрируйтесь на мероприятие и отправляйте свои анкеты до 10 октября
👍11✍7👀1
Всем привет! Меня зовут Алина, я DS Team Lead команды Auction Efficiency. В посте расскажу, почему хожу на профильные конференции, но сначала немного про мою команду 😇
В Авито продавцы платят за разные целевые действия: клики, сделки, звонки. Мы также хотим учитывать этот потенциал за оплату разных действий в поиске и рекомендациях — для этого рассчитываем монетизационный фактор. За его качество наша команда и отвечает.
Для оценки этого фактора мы используем ML-модели предсказаний целевых действий. Сейчас это catboost, но мы активно смотрим в сторону DL-моделей. И чтобы понимать, какие подходы есть сейчас и как они работают, мы не только читаем статьи, но и ходим на конференции.
Конференции — это возможность услышать идеи для своих задач: как на презентациях, так и в личных беседах.
Ещё, когда я слушаю об успехах, неудачах и сложностях других специалистов — это помогает мне чувствовать себя спокойнее в работе. Приятно, что не мы одни сталкиваемся с какими-то проблемами.
На конференции можно ходить, чтобы поддерживать коллег. Выступать всегда немного волнительно, особенно в первый раз. Поэтому приятно, когда в зале есть знакомые лица. Например, мы недавно ходили на Practical ML — поддерживали Антона Семенистого. Он рассказывал про DL CTR.
Ещё на таких мероприятиях можно в неформальной обстановке наладить контакт, а потом узнать подробнее про устройство бизнеса и команды. Например, на Practical ML мы слушали доклад про модель Argus, которая актуальна и для Авито, и, конечно, поболтали с ребятами из других компаний.
Ещё я как-то выигрывала два промокода в Лавку, управляя птичкой, а потом узнала, как команда Яндекс Плюс выбирает кешбэки для покупателей 😁
В общем, на конференции полезно ходить не только (и не столько) ради самих докладов, сколько ради нетворка и инсайтов, которые можно получить во время общения с коллегами из других компаний. Надеюсь, что в будущем и моя команда выступит с докладами!
А за что вы любите или не любите конференции?
В Авито продавцы платят за разные целевые действия: клики, сделки, звонки. Мы также хотим учитывать этот потенциал за оплату разных действий в поиске и рекомендациях — для этого рассчитываем монетизационный фактор. За его качество наша команда и отвечает.
Для оценки этого фактора мы используем ML-модели предсказаний целевых действий. Сейчас это catboost, но мы активно смотрим в сторону DL-моделей. И чтобы понимать, какие подходы есть сейчас и как они работают, мы не только читаем статьи, но и ходим на конференции.
Конференции — это возможность услышать идеи для своих задач: как на презентациях, так и в личных беседах.
Ещё, когда я слушаю об успехах, неудачах и сложностях других специалистов — это помогает мне чувствовать себя спокойнее в работе. Приятно, что не мы одни сталкиваемся с какими-то проблемами.
На конференции можно ходить, чтобы поддерживать коллег. Выступать всегда немного волнительно, особенно в первый раз. Поэтому приятно, когда в зале есть знакомые лица. Например, мы недавно ходили на Practical ML — поддерживали Антона Семенистого. Он рассказывал про DL CTR.
Ещё на таких мероприятиях можно в неформальной обстановке наладить контакт, а потом узнать подробнее про устройство бизнеса и команды. Например, на Practical ML мы слушали доклад про модель Argus, которая актуальна и для Авито, и, конечно, поболтали с ребятами из других компаний.
Ещё я как-то выигрывала два промокода в Лавку, управляя птичкой, а потом узнала, как команда Яндекс Плюс выбирает кешбэки для покупателей 😁
В общем, на конференции полезно ходить не только (и не столько) ради самих докладов, сколько ради нетворка и инсайтов, которые можно получить во время общения с коллегами из других компаний. Надеюсь, что в будущем и моя команда выступит с докладами!
А за что вы любите или не любите конференции?
❤17⚡5🔥4
Собеседование в прямом эфире: ML system design
13 октября | 18:30 мск
Что будет на стриме:
1️⃣ Разберём ML system design кейс, который ещё в недавнем прошлом предлагали на реальных собеседованиях.
2️⃣ Поговорим про компетенции, которые в Авито ждут от DS-инженеров.
3️⃣ Разберём результаты по итогам решения кейса и ответим на ваши вопросы.
Кто будет на стриме:
👤 Интервьюеры — Саша Ледовский, руководитель DS команд монетизации Авито и Максим Каширин, руководитель Data Science направления в модерации Авито.
👤 Кандидат —Дмитрий Савелко, LLM-инженер в R&D команде банка Точка.
Больше информации про событие и регистрация на Timepad.
Пришлём вам ссылку с напоминанием за 5 минут до старта 🚀
13 октября | 18:30 мск
Что будет на стриме:
1️⃣ Разберём ML system design кейс, который ещё в недавнем прошлом предлагали на реальных собеседованиях.
2️⃣ Поговорим про компетенции, которые в Авито ждут от DS-инженеров.
3️⃣ Разберём результаты по итогам решения кейса и ответим на ваши вопросы.
Кто будет на стриме:
👤 Интервьюеры — Саша Ледовский, руководитель DS команд монетизации Авито и Максим Каширин, руководитель Data Science направления в модерации Авито.
👤 Кандидат —Дмитрий Савелко, LLM-инженер в R&D команде банка Точка.
Больше информации про событие и регистрация на Timepad.
Пришлём вам ссылку с напоминанием за 5 минут до старта 🚀
👍9🔥7❤1
Привет! Меня зовут Артём, я DS-инженер в команде Auction Efficiency, занимаюсь CTR-моделями в Поиске.
С этого поста начну серию текстов, в которых буду делиться своим подходом к организации работы и исследований в Data Science.
Верхнеуровневая структура моего DS-проекта обычно выглядит следующим образом:
Пройдёмся по ней более подробно:
—
—
—
—
—
—
—
—
—
Это обобщённая структура, поэтому в одних проектах каких-нибудь файлов/папок может и не быть, а в других проектах нужно будет добавить дополнительные.
В следующий раз я расскажу, как навести порядок в своих jupyter-ноутбуках, поэтому, если такие практические советы вам интересны — ставьте ✍️ под постом, чтобы мы продолжили развивать это направление!
И ловите полезные ссылки по этой теме:
Cookiecutter Data Science: шаблон, с помощью которого можно в автоматическом режиме настроить свой Data Science проект с нуля.
Обзор от ИИ Google: если поискать в интернете
How to organize your Python data science project: ещё один подход к организации DS проекта.
А как вы структурируете свои DS-проекты? Рассказывайте в комментариях
С этого поста начну серию текстов, в которых буду делиться своим подходом к организации работы и исследований в Data Science.
Верхнеуровневая структура моего DS-проекта обычно выглядит следующим образом:
project/
├── code
├── configs
├── notebooks
├── data/
│ ├── input
│ └── output
├── results
├── models
├── requirements.txt
├── .gitignore
└── README.md
Пройдёмся по ней более подробно:
—
code: .py файлы с полезными функциями и классами.—
configs: различные конфиги для обучения моделей и трансформации данных.—
notebooks: jupyter-ноутбуки, в которых обычно происходит вызов функций и методов классов из python-файлов директории code.—
data: входные и выходные данные.—
results: результаты (метрики и др.)—
models: сохранённые модели для воспроизведения результатов.—
requirements.txt: файл с зафиксированными версиями библиотек.—
.gitignore: файл для создания правил по добавлению файлов в Git.—
README.md: описание проекта.Это обобщённая структура, поэтому в одних проектах каких-нибудь файлов/папок может и не быть, а в других проектах нужно будет добавить дополнительные.
В следующий раз я расскажу, как навести порядок в своих jupyter-ноутбуках, поэтому, если такие практические советы вам интересны — ставьте ✍️ под постом, чтобы мы продолжили развивать это направление!
И ловите полезные ссылки по этой теме:
Cookiecutter Data Science: шаблон, с помощью которого можно в автоматическом режиме настроить свой Data Science проект с нуля.
Обзор от ИИ Google: если поискать в интернете
data science project structure, то Google предоставляет классный конспект на эту тему.How to organize your Python data science project: ещё один подход к организации DS проекта.
А как вы структурируете свои DS-проекты? Рассказывайте в комментариях
✍32👍25❤2
Привет! Я Ярослав Хрипков — DS-инженер в команде LLM. Проведу в этом канале наш первый ML reading club в прямом эфире.
Мы прочитаем и разберём статью Qwen3-Next: Towards Ultimate Training & Inference Efficiency, чтобы понять, как и почему у компании Alibaba всё так круто сработало с этой версией модели.
Узнаем:
➡️ Чем хороша эта модель.
➡️ Из-за чего выросло её качество.
➡️ Как gated attention и gated delta блоки улучшили эффективность модели.
Для контекста заглянем и в другие материалы:
— Gated Delta Networks: Improving Mamba2 with Delta Rule
— Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
🎤 Эфир проведу 14 октября в 18:00 прямо в этом канале. Приходите, будет интересно!
Мы прочитаем и разберём статью Qwen3-Next: Towards Ultimate Training & Inference Efficiency, чтобы понять, как и почему у компании Alibaba всё так круто сработало с этой версией модели.
Узнаем:
Для контекста заглянем и в другие материалы:
— Gated Delta Networks: Improving Mamba2 with Delta Rule
— Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
Нюанс: если эфир будет плохо работать, попробуйте использовать сторонние сервисы и приложения, чтобы подключиться с другого IP 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24🙏4❤2🤷1
👋 Привет! Напоминаем, что ждём вас на нашем первом ML reading club. Обсудим статью Qwen3-Next: Towards Ultimate Training & Inference Efficiency, и разберёмся, что такого классного в новой модели от Alibaba.
Эфир пройдёт в этом канале завтра, в 18:00. Ссылку пришлём за час до старта.
Эфир пройдёт в этом канале завтра, в 18:00. Ссылку пришлём за час до старта.
❤9👍8