Всем привет! Это не душный, а душевный канал про Data Science в Авито.
📌 На нашей доске вы найдете объявления про жизнь и работу, про то, что вдохновляет и развивает нас. Про ML, AI, вакансии, мероприятия.
📌 На нашей доске вы найдете объявления про жизнь и работу, про то, что вдохновляет и развивает нас. Про ML, AI, вакансии, мероприятия.
🔥5❤1
Доска AI-объявлений pinned «Всем привет! Это не душный, а душевный канал про Data Science в Авито. 📌 На нашей доске вы найдете объявления про жизнь и работу, про то, что вдохновляет и развивает нас. Про ML, AI, вакансии, мероприятия.»
Всем привет! Меня зовут Саша Ледовский, я Data Science Team Lead в Авито, разрабатываю продвижение в поиске и рекомендациях и буду одним из авторов в канале. Начну с пары слов о Data Science в компании:
💚 За последние несколько лет мы сильно выросли: в команде уже больше 150 человек. DS стал отдельным направлением со своей иерархией, матрицами компетенций и единым флоу найма.
💚 DS проникает во все сферы бизнеса Авито. Пару лет назад у нас было всего несколько крупных центров: модерация и антифрод, DS SWAT, поиск и рекомендации. Но теперь возник DS в монетизации, появилась AI-лаборатория, а из DS SWAT стали выделяться специализированные команды в вертикалях и горизонталях.
Вертикалями мы называем направления бизнеса, например, Товары или Работа. А горизонтали — это решения для всей компании, например мессенджер Авито. В канале будут писать ребята из разных направлений, и вы сможете узнать о них больше.
💚 Наша важная особенность: DS-инженер — это в первую очередь инженер. В некоторых компаниях дата-сайентисты делают чисто рисёрч и модели, а в прод всё выводят другие люди. У нас DS-иженер выполняет работу полного цикла: исследует, выводит модели в прод на питоне, а где-то и пишет на golang.
Но обо всем этом мы ещё поговорим. А сейчас сошлёмся на нашу свежую статью на Хабре, где вы можете почитать о нас больше:
→ Чем занимаются дата-сайентисты в Авито
💚 За последние несколько лет мы сильно выросли: в команде уже больше 150 человек. DS стал отдельным направлением со своей иерархией, матрицами компетенций и единым флоу найма.
💚 DS проникает во все сферы бизнеса Авито. Пару лет назад у нас было всего несколько крупных центров: модерация и антифрод, DS SWAT, поиск и рекомендации. Но теперь возник DS в монетизации, появилась AI-лаборатория, а из DS SWAT стали выделяться специализированные команды в вертикалях и горизонталях.
Вертикалями мы называем направления бизнеса, например, Товары или Работа. А горизонтали — это решения для всей компании, например мессенджер Авито. В канале будут писать ребята из разных направлений, и вы сможете узнать о них больше.
💚 Наша важная особенность: DS-инженер — это в первую очередь инженер. В некоторых компаниях дата-сайентисты делают чисто рисёрч и модели, а в прод всё выводят другие люди. У нас DS-иженер выполняет работу полного цикла: исследует, выводит модели в прод на питоне, а где-то и пишет на golang.
Но обо всем этом мы ещё поговорим. А сейчас сошлёмся на нашу свежую статью на Хабре, где вы можете почитать о нас больше:
→ Чем занимаются дата-сайентисты в Авито
Хабр
Чем занимаются дата-сайентисты в Авито — полный разбор
Всем привет, на связи команда Data Science Авито . В этой статье рассказываем, какие команды есть в нашем департаменте, на конкретных примерах объясняем, над чем работаем и как развиваем бизнес. Также...
🔥15❤5👍3🦄1
Как мы всей компанией обучали модели определения параметров товаров
C вами снова Саша Ледовский, Data Science Team Lead. Сегодня начну постепенно рассказывать о нашей внутренней жизни.
Если создавали объявление на Авито, то наверняка замечали, что вам автоматически предлагают категорию товара и предзаполняют часть параметров.
🎓 За это отвечает платформа item2param — о ней недавно рассказывал мой коллега Руслан Гилязев, DS Team Lead платформы:
→ Предсказание категории объявления по описанию / фото
🎓 Под капотом у неё работает наш собственный AvitoBERT с дообученной головой. Платформа уже довольно высокого уровня зрелости: мы автоматизировали сбор датасетов, расчёт метрик, анализ ошибок и раскатку в прод. А сама модель инкапсулирована так, что обучение управляется лишь набором гиперпараметров.
🎓 Но есть сложность: для каждого параметра в объявлении нужна отдельная модель, а их можете себе представить, насколько много.
Автоматом запустить обучение всех параметров нельзя, потому что анализ качества модели — тоже непростая задача. Есть рекомендации по точности, но всё на самом деле индивидуально.
🎓 И вот перед Новым годом Аня Маркова, DS Team Lead в Товарах, и Руслан Гилязев запустили внутреннее соревнование, на котором мы всей компанией обучали модели на новые параметры. Я сам обучил модель, которая подсказывает жанр книги — было очень интересно.
Меня повергло в шок, что в топе лидерборда было много не DS-инженеров! Поэтому теперь у меня появился новый стандарт зрелости ML-системы — модель в ней может обучить не только дата-сайентист.
P.S. поздравляем Вику Найман с победой
C вами снова Саша Ледовский, Data Science Team Lead. Сегодня начну постепенно рассказывать о нашей внутренней жизни.
Если создавали объявление на Авито, то наверняка замечали, что вам автоматически предлагают категорию товара и предзаполняют часть параметров.
🎓 За это отвечает платформа item2param — о ней недавно рассказывал мой коллега Руслан Гилязев, DS Team Lead платформы:
→ Предсказание категории объявления по описанию / фото
🎓 Под капотом у неё работает наш собственный AvitoBERT с дообученной головой. Платформа уже довольно высокого уровня зрелости: мы автоматизировали сбор датасетов, расчёт метрик, анализ ошибок и раскатку в прод. А сама модель инкапсулирована так, что обучение управляется лишь набором гиперпараметров.
🎓 Но есть сложность: для каждого параметра в объявлении нужна отдельная модель, а их можете себе представить, насколько много.
Автоматом запустить обучение всех параметров нельзя, потому что анализ качества модели — тоже непростая задача. Есть рекомендации по точности, но всё на самом деле индивидуально.
🎓 И вот перед Новым годом Аня Маркова, DS Team Lead в Товарах, и Руслан Гилязев запустили внутреннее соревнование, на котором мы всей компанией обучали модели на новые параметры. Я сам обучил модель, которая подсказывает жанр книги — было очень интересно.
Меня повергло в шок, что в топе лидерборда было много не DS-инженеров! Поэтому теперь у меня появился новый стандарт зрелости ML-системы — модель в ней может обучить не только дата-сайентист.
P.S. поздравляем Вику Найман с победой
VK Видео
Руслан Гилязев | Предсказание категории объявления по описанию / фото
Спикер: Руслан Гилязев, DS Team Lead в Авито Тема доклада: Предсказание категории объявления по описанию / фото Мероприятие: Data Fest 2024 https://ods.ai/events/datafest2024 Офлайн ивент Data Fest в гостях у Avito.tech https://ods.ai/events/fest2024-avito…
🔥11❤6
This media is not supported in your browser
VIEW IN TELEGRAM
Чтобы было понятнее в чем суть item2param, записал вам видео с примером 🙂
🔥4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Токийский дрифт на выезде DS
У DS в Авито есть возможность не только работать на интересных и сложных проектах, но и классно проводить время вместе. Один из примеров — наш недавний выезд в отель «Пересвет». Я, Даня Бочарников, Data Science Engineer из поиска Авито, расскажу о нём со стороны участника.
Вообще в Авито много корпоративов для разных функций. Например, в декабре команда DS отправилась в загородную поездку, цель которой — понетворкать и переключиться с работы на веселье. Считаю, что нам это удалось 👇
🚗 Гвоздь программы выезда — хакатон по управлению беспилотными автомобилями. Он поначалу вызвал скепсис. «Мы и так целый год обучали модели, а тут опять надо, ещё и с дедлайнами жёстче», — успел думал я.
🚗 Но оказалось, что идея была шикарная. Во-первых, беспилотники — задача не из домена Авито. Да и computer vision не все могут заниматься по рабочим проектам. Во-вторых, люди в командах были из разных отделов и смогли познакомиться получше. За кофе-брейками обсуждали, как всё не работает или вот-вот заработает.
🚗 Финал дал много запоминающихся моментов: две команды показывали видео заезда своей машины в симуляторе. Люди голосовали за лучшее, жюри давало ревью, и проигравшие выбывали.
🚗 Получилась крайне необычная система оценки ML-моделей. Были хорошие, почти без нарушений правил, были забавные, а какие-то машины устраивали токийский дрифт или постоянно врезались в полицию.
После этого был классический ужин с живой музыкой — подробности опустим. Приходите и сами всё увидите 😉
У DS в Авито есть возможность не только работать на интересных и сложных проектах, но и классно проводить время вместе. Один из примеров — наш недавний выезд в отель «Пересвет». Я, Даня Бочарников, Data Science Engineer из поиска Авито, расскажу о нём со стороны участника.
Вообще в Авито много корпоративов для разных функций. Например, в декабре команда DS отправилась в загородную поездку, цель которой — понетворкать и переключиться с работы на веселье. Считаю, что нам это удалось 👇
🚗 Гвоздь программы выезда — хакатон по управлению беспилотными автомобилями. Он поначалу вызвал скепсис. «Мы и так целый год обучали модели, а тут опять надо, ещё и с дедлайнами жёстче», — успел думал я.
🚗 Но оказалось, что идея была шикарная. Во-первых, беспилотники — задача не из домена Авито. Да и computer vision не все могут заниматься по рабочим проектам. Во-вторых, люди в командах были из разных отделов и смогли познакомиться получше. За кофе-брейками обсуждали, как всё не работает или вот-вот заработает.
🚗 Финал дал много запоминающихся моментов: две команды показывали видео заезда своей машины в симуляторе. Люди голосовали за лучшее, жюри давало ревью, и проигравшие выбывали.
🚗 Получилась крайне необычная система оценки ML-моделей. Были хорошие, почти без нарушений правил, были забавные, а какие-то машины устраивали токийский дрифт или постоянно врезались в полицию.
После этого был классический ужин с живой музыкой — подробности опустим. Приходите и сами всё увидите 😉
🔥11👍4❤1
Знакомимся с командами
В рамках Weekend Offer рассказываем про команды DS в Авито: AI Lab, антифрод и модерацию, монетизацию, поиск и рекомендации, а ещё про вертикальные команды.
Вы узнаете о задачах, целях, продуктах, командных посиделках и атмосфере работы от первых лиц.
Посты будут выходить до конца февраля, не переключайтесь 😉
В рамках Weekend Offer рассказываем про команды DS в Авито: AI Lab, антифрод и модерацию, монетизацию, поиск и рекомендации, а ещё про вертикальные команды.
Вы узнаете о задачах, целях, продуктах, командных посиделках и атмосфере работы от первых лиц.
Посты будут выходить до конца февраля, не переключайтесь 😉
❤8😍4
Чем занимается наша команда LLM
Всем привет! Меня зовут Настя Рысьмятова, я руковожу юнитом LLM. Мы занимаемся обучением своей базовой LLM и применяем её к разным бизнес-задачам Авито.
🧠 Для разработки базовой модели мы адаптируем лучшие open source модели под русский язык и домен Авито с помощью Continual Pre-training и подмены токенизатора. Об этом я рассказывала на Data Fest и в статье на Хабре:
→ Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений
🧠 Для улучшения модели мы исследуем новые методы и датасеты. А чтобы все в команде были на одной волне, у нас есть LLM-семинары, на которых мы обсуждаем самые интересные статьи.
Я верю, что с помощью LLM можно реализовать много полезного и сделать Авито удобнее. Сейчас мы отвечаем за 35 сервисов — вот несколько примеров продуктов, где нам уже удалось внедрить LLM:
Генерация описания. В некоторых категориях Авито уже не обязательно готовить описание объявления самостоятельно — можно взять сгенерированный текст от LLM.
Модификация отчётов Автотеки. Данные для них Авито получает от партнёров, которые часто пользуются непонятными для обычных людей формулировками и сокращениями. Мы обучили LLM их расшифровывать.
Суммаризация чатов агентов поддержки. Когда у агента не получается справиться с проблемой, он может передать её более опытному коллеге. Для этого нужно кратко описать содержание чата с пользователем. Теперь это может делать LLM.
Модификация сообщений агентов поддержки. Мы обучили LLM перефразировать некоторые сообщения агентов поддержки, чтобы сделать их более эмпатичными и исправить ошибки.
Саджесты в мессенджере. Когда пишете сообщение на Авито, можете встретить всплывающие подсказки от LLM — они помогут удобнее и быстрее общаться в чате.
Всем привет! Меня зовут Настя Рысьмятова, я руковожу юнитом LLM. Мы занимаемся обучением своей базовой LLM и применяем её к разным бизнес-задачам Авито.
🧠 Для разработки базовой модели мы адаптируем лучшие open source модели под русский язык и домен Авито с помощью Continual Pre-training и подмены токенизатора. Об этом я рассказывала на Data Fest и в статье на Хабре:
→ Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений
🧠 Для улучшения модели мы исследуем новые методы и датасеты. А чтобы все в команде были на одной волне, у нас есть LLM-семинары, на которых мы обсуждаем самые интересные статьи.
Я верю, что с помощью LLM можно реализовать много полезного и сделать Авито удобнее. Сейчас мы отвечаем за 35 сервисов — вот несколько примеров продуктов, где нам уже удалось внедрить LLM:
Генерация описания. В некоторых категориях Авито уже не обязательно готовить описание объявления самостоятельно — можно взять сгенерированный текст от LLM.
Модификация отчётов Автотеки. Данные для них Авито получает от партнёров, которые часто пользуются непонятными для обычных людей формулировками и сокращениями. Мы обучили LLM их расшифровывать.
Суммаризация чатов агентов поддержки. Когда у агента не получается справиться с проблемой, он может передать её более опытному коллеге. Для этого нужно кратко описать содержание чата с пользователем. Теперь это может делать LLM.
Модификация сообщений агентов поддержки. Мы обучили LLM перефразировать некоторые сообщения агентов поддержки, чтобы сделать их более эмпатичными и исправить ошибки.
Саджесты в мессенджере. Когда пишете сообщение на Авито, можете встретить всплывающие подсказки от LLM — они помогут удобнее и быстрее общаться в чате.
🔥37❤18🎉10👍2
