SBER_AILab_LightAutoML_Ryzhkov_NoML_06_07_22.pdf
9.5 MB
Всем привет!
Вышла запись нашего вебинара в NoML Community. Постарались рассказать обо всем, что есть у нас в LAMA
Уложились по классике в ~3 часа 😇
📺 Александр Рыжков - LightAutoML: как строить ML модели быстрее
Вышла запись нашего вебинара в NoML Community. Постарались рассказать обо всем, что есть у нас в LAMA
Уложились по классике в ~3 часа 😇
📺 Александр Рыжков - LightAutoML: как строить ML модели быстрее
👍16🔥6
🎁Конкурс!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что-то пошло не так;
- «Успех года с LightAutoML»: о том как Лама помогла вам ускорить свою производительность или добится существенного прироста качества за короткий срок;
- «Хакатон года с LightAutoML»: о том, как вы участвовали с Лама, с каким решением и какое место заняли, а может есть то, чего вам не хватило в Лама для победы?
- «Стахановец года с LightAutoML»: о том сколько пилотов вы сделали, внедрили моделек в пром с помощью Лама;
- «Просветитель года LightAutoML»: присылай ссылку на свою статью о том, как с помощью LAMA сделал что-либо полезное, или фреймворк тебе помог в нелегких буднях (возможно у тебя есть статья на Хабре или другом ресурсе)
Принимаем кейсы для конкурса в виде 2х красивых слайдов в pdf/pptx или ссылок на аналогичные материалы на почту ml.tools.center@gmail.com или lama_info@sberbank.ru до 30 сентября 2022 года.
Авторы лучших кейсов получат толстовки 🏆 от LightAutoML и Sber AI Lab.
Лучшие кейсы будут опубликованы в канале с согласия авторов!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что-то пошло не так;
- «Успех года с LightAutoML»: о том как Лама помогла вам ускорить свою производительность или добится существенного прироста качества за короткий срок;
- «Хакатон года с LightAutoML»: о том, как вы участвовали с Лама, с каким решением и какое место заняли, а может есть то, чего вам не хватило в Лама для победы?
- «Стахановец года с LightAutoML»: о том сколько пилотов вы сделали, внедрили моделек в пром с помощью Лама;
- «Просветитель года LightAutoML»: присылай ссылку на свою статью о том, как с помощью LAMA сделал что-либо полезное, или фреймворк тебе помог в нелегких буднях (возможно у тебя есть статья на Хабре или другом ресурсе)
Принимаем кейсы для конкурса в виде 2х красивых слайдов в pdf/pptx или ссылок на аналогичные материалы на почту ml.tools.center@gmail.com или lama_info@sberbank.ru до 30 сентября 2022 года.
Авторы лучших кейсов получат толстовки 🏆 от LightAutoML и Sber AI Lab.
Лучшие кейсы будут опубликованы в канале с согласия авторов!
🔥10👍1
Forwarded from Small Data Science for Russian Adventurers
#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).
🔥35❤3👍1
Начиная с нескольких последних релизов в LightAutoML встроен функционал предсказания следующих значений временного ряда (forecasting).
Что он в себя включает:
0. Поддержка регулярных одномерных временных рядов с малым числом пропусков и дополнительными признаками.
1. Мультиатпут модели (и новые таски обучения) для предсказания сразу нескольких точек вперед одновременно, что отличает нас от аналогичных решений.
2. Простые пайплайны признаков (лаговые признаки + сезонности из дат) для фиксированного горизонта истории.
3. Модуль работы с аддитивным монотонным трендом.
4. Реализация сейчас не подразумевает тюн гиперпараметров по TS валидации.
5. Датасет должен содержать в себе колонку с таймстемпами в формате даты.
При этом сейчас мы можем работать одновременно с несколькими сегментами рядов, но только при сборке автомл пайплайна из блоков и без тренда. Айди сегмента подается как отдельный признак.
Мы также провели ряд численных экспериментов и увидели, что несмотря на крайнюю простоту подхода и простые признаки, в некоторых постановках задач LAMA работает на уровне или лучше других решений.
Обычно это:
А. Одномерные ряды среднего размера (от сотни наблюдений)
Б. В данных нет тренда, но встречается сезонность.
В. Горизонт предсказания не слишком длинный (порядка 7-20 точек).
Пример запуска на одном ряде, а также иллюстрации работы и численные результаты в комментариях к данному посту.
Что он в себя включает:
0. Поддержка регулярных одномерных временных рядов с малым числом пропусков и дополнительными признаками.
1. Мультиатпут модели (и новые таски обучения) для предсказания сразу нескольких точек вперед одновременно, что отличает нас от аналогичных решений.
2. Простые пайплайны признаков (лаговые признаки + сезонности из дат) для фиксированного горизонта истории.
3. Модуль работы с аддитивным монотонным трендом.
4. Реализация сейчас не подразумевает тюн гиперпараметров по TS валидации.
5. Датасет должен содержать в себе колонку с таймстемпами в формате даты.
При этом сейчас мы можем работать одновременно с несколькими сегментами рядов, но только при сборке автомл пайплайна из блоков и без тренда. Айди сегмента подается как отдельный признак.
Мы также провели ряд численных экспериментов и увидели, что несмотря на крайнюю простоту подхода и простые признаки, в некоторых постановках задач LAMA работает на уровне или лучше других решений.
Обычно это:
А. Одномерные ряды среднего размера (от сотни наблюдений)
Б. В данных нет тренда, но встречается сезонность.
В. Горизонт предсказания не слишком длинный (порядка 7-20 точек).
Пример запуска на одном ряде, а также иллюстрации работы и численные результаты в комментариях к данному посту.
🔥23🎉9👍5❤2
Насколько вам интересен и актуален функционал работы с временными рядами?
Пишите ваши пожелания в комментарии к данному опросу 👇или посту выше 👆 Улучшай LAMA вместе с нами!
Пишите ваши пожелания в комментарии к данному опросу 👇или посту выше 👆 Улучшай LAMA вместе с нами!
Anonymous Poll
73%
Буду пробовать, мне подходит
15%
Не хватает функционала
12%
Задачи TimeSeries не актуальны
🔥6
Всем привет, мы решили продлить до конца года сбор кейсов по использованию по LightAutoML. Присылайте материалы о вашем использовании LAMA: ml.tools.center@gmail.com, lama_info@sberbank.ru
С теми, кто уже ранее нам направил материалы, мы обязательно свяжемся!
С теми, кто уже ранее нам направил материалы, мы обязательно свяжемся!
Telegram
LightAutoML framework
🎁Конкурс!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что…
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что…
👍7
Всем привет! рады сообщить, что в зоопарке open source решений AI Lab пополнение - либа eco2AI.
Она считает экв. объем CO2 эмиссии в процессе обучения моделей.
Зачем это нужно? Оказывается, углеродный след, как и энергопотребление, является хорошей единицей измерения для оценки эффективности моделей. Можно следить не только за качеством моделей, но и за ценой прироста этого качества в эквиваленте CO2.
Будет круто, если удастся потестить, поэкспериментировать. Будем рады услышать любую критику и предложения по доработке. В профиле либы на GitHub есть ссылка на статью для понимания того, как это все работает и примеры)
Наша либа отдельно номинирована в международном конкурсе WSIS в номинации Environment. Сегодня последний день голосования.
Поддержите плиз, по ссылке:
https://www.itu.int/net4/wsis/stocktaking/Prizes/2023/Nominated?jts=GIZE1R&idx=14&page=12#start
Она считает экв. объем CO2 эмиссии в процессе обучения моделей.
Зачем это нужно? Оказывается, углеродный след, как и энергопотребление, является хорошей единицей измерения для оценки эффективности моделей. Можно следить не только за качеством моделей, но и за ценой прироста этого качества в эквиваленте CO2.
Будет круто, если удастся потестить, поэкспериментировать. Будем рады услышать любую критику и предложения по доработке. В профиле либы на GitHub есть ссылка на статью для понимания того, как это все работает и примеры)
Наша либа отдельно номинирована в международном конкурсе WSIS в номинации Environment. Сегодня последний день голосования.
Поддержите плиз, по ссылке:
https://www.itu.int/net4/wsis/stocktaking/Prizes/2023/Nominated?jts=GIZE1R&idx=14&page=12#start
GitHub
GitHub - sb-ai-lab/Eco2AI: eco2AI is a python library which accumulates statistics about power consumption and CO2 emission during…
eco2AI is a python library which accumulates statistics about power consumption and CO2 emission during running code. - GitHub - sb-ai-lab/Eco2AI: eco2AI is a python library which accumulates stat...
🔥18❤3👍3👎1
Привет, всем!
Мы активно набираем команду. Есть разные задачи в области automl, recsys: ml-инженерные, data-инженерные и на стыке классического МО и DL-подходов, в том числе модели на последовательных данных.
Ищем людей с пониманием внутренней работы алгоритмов машинного обучения и хорошими навыками программирования.
Уровень: middle/senior.
Обязательно присутствие в офисе несколько дней в неделю.
Будем рады вашим откликам.
Вакансии тут 👉 https://sberailab.huntflow.io/
Мы активно набираем команду. Есть разные задачи в области automl, recsys: ml-инженерные, data-инженерные и на стыке классического МО и DL-подходов, в том числе модели на последовательных данных.
Ищем людей с пониманием внутренней работы алгоритмов машинного обучения и хорошими навыками программирования.
Уровень: middle/senior.
Обязательно присутствие в офисе несколько дней в неделю.
Будем рады вашим откликам.
Вакансии тут 👉 https://sberailab.huntflow.io/
🔥23👍4
Forwarded from Al Talent Hub
Проекты с менторами из Sber AI Lab — реальность для наших магистрантов 🤩
Так, в сентябре 2022 года магистранты Константин Темплин и Кристина Желтова познакомились на Bootcamp с экспертом из индустрии Александром Рыжковым, руководителем команды разработки LightAutoML в Sber AI Lab. А после создали инструмент для упрощения развертывания моделей машинного обучения MLJET.
Как сейчас продвигается проект и какие новые фичи ребята успели внедрить — читайте на Хабре 👉🏻 clck.ru/34ctPJ
Хотите создавать такие же крутые проекты? Присоединяйтесь к онлайн-магистратуре 🚀
Так, в сентябре 2022 года магистранты Константин Темплин и Кристина Желтова познакомились на Bootcamp с экспертом из индустрии Александром Рыжковым, руководителем команды разработки LightAutoML в Sber AI Lab. А после создали инструмент для упрощения развертывания моделей машинного обучения MLJET.
Как сейчас продвигается проект и какие новые фичи ребята успели внедрить — читайте на Хабре 👉🏻 clck.ru/34ctPJ
Хотите создавать такие же крутые проекты? Присоединяйтесь к онлайн-магистратуре 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍3
🎓Всем привет, мы перезапустили наш курс по LightAutoML в формате коротких лекций и how-to видео (от 2 до 15 мин)
Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.
Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.
Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории, и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!
Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.
Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.
Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории, и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!
developers.sber.ru
Вводный курс LightAutoML – База знаний
Работа с фреймворком разработки моделей машинного обучения LightAutoML. Как функционирует библиотека фреймворка, чем она полезна и как можно научиться с ней работать.
🔥43❤3🎉2🤩1
Forwarded from Machinelearning
Решаем ML-задачи за 60 секунд, отправляем AI торговать на бирже и изучаем мультимодальную архитектуру — на онлайн-митапе Сбера при поддержке JUG Ru Group.
🗓 29 ноября в 18:00
В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.
✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.
✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой.
Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.
➡️ Регистрация по ссылке.
Реклама. ПАО СБЕРБАНК. ИНН 7707083893.
🗓 29 ноября в 18:00
В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.
✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.
✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой.
Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.
➡️ Регистрация по ссылке.
Реклама. ПАО СБЕРБАНК. ИНН 7707083893.
🔥4❤2
Успех табличных нейронных сетей и новости соревновательного машинного обучения.
Сегодня завершилось соревнование Linking Writing Processes to Writing Quality на🔑 . LightAutoML отлично себя показал и оказался частью как минимум 5 🥇 золотых решений.
Neural LAMA использовал в своем решении текущий Топ1 площадки Dieter.
Если вы хотите попробовать в своих задачах одну из 9 архитектур, среди которых 5 классических и 4 современных, в том числе с новыми SOTA методами кодирования признаков (PLR, SoftEmb), то просто установите нужную версию командой
Для установки LAMA на Python 3.11 можете использовать whl-файл из этого Kaggle датасета. А позапускать уже готовые модельки на соревновании Linking Writing Processes можете на основе другого датасета.
UPD: В Топ1 решении тоже использовалась LAMA и PLR энкодинг.
UPD 2: После финализации результатов Топ1 поменялся, но все ещё с LAMA.
Сегодня завершилось соревнование Linking Writing Processes to Writing Quality на
Neural LAMA использовал в своем решении текущий Топ1 площадки Dieter.
Если вы хотите попробовать в своих задачах одну из 9 архитектур, среди которых 5 классических и 4 современных, в том числе с новыми SOTA методами кодирования признаков (PLR, SoftEmb), то просто установите нужную версию командой
pip install путь/до/whl
отсюда и ознакомьтесь с туториалом на github.Для установки LAMA на Python 3.11 можете использовать whl-файл из этого Kaggle датасета. А позапускать уже готовые модельки на соревновании Linking Writing Processes можете на основе другого датасета.
UPD: В Топ1 решении тоже использовалась LAMA и PLR энкодинг.
UPD 2: После финализации результатов Топ1 поменялся, но все ещё с LAMA.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36👍5❤2
Коллеги, всем привет!
Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:
1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.
2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).
3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета
4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab
5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃
С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.
Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML
Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:
1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.
2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).
3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета
4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab
5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃
С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.
Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML
🔥58👍10❤3🤩2🎉1
Коллеги, всем привет!
Буквально сегодня выложили приватный лидерборд соревнования DataFusion (был довольно сильный shake-up) и мы спешим поделиться отличной новостью - команда нашей лаборатории смогла занять в нем 2-ое место как на публичном, так и на приватном лидерборде.
Также стоит отметить еще несколько интересных моментов:
- Наш хороший знакомый Иван Глебов (почетный бетатестер LightAutoML) в одиночку оказался на 4-ом месте
- Один из участников соревнования получит приз за лучшее публичное решение, которое сделано на базе эмбеддингов CoLES и PyTorch-LifeStream
Ссылка на соревнование: https://ods.ai/competitions/data-fusion2024-churn/leaderboard/private
Буквально сегодня выложили приватный лидерборд соревнования DataFusion (был довольно сильный shake-up) и мы спешим поделиться отличной новостью - команда нашей лаборатории смогла занять в нем 2-ое место как на публичном, так и на приватном лидерборде.
Также стоит отметить еще несколько интересных моментов:
- Наш хороший знакомый Иван Глебов (почетный бетатестер LightAutoML) в одиночку оказался на 4-ом месте
- Один из участников соревнования получит приз за лучшее публичное решение, которое сделано на базе эмбеддингов CoLES и PyTorch-LifeStream
Ссылка на соревнование: https://ods.ai/competitions/data-fusion2024-churn/leaderboard/private
🔥33🎉7🤩4👍2❤1
Всем привет!
Весна шагает семимильными шагами и вдохновляет нас на самые интересные предложения. Мы задумались о трансформации канала и расширении освещения в области наших open source решений.
Хотите узнавать про другие фреймворки в этом канале, получать новости по релизам, хакатонам и соревнованиям?
Если да, ставьте 🔥 к посту!
Хотите оставить только LightAutoML жмите 😢
У нас есть:
✅ Фреймворк для создания моделей рекомендаций RePlay
✅ Фреймворк для работы с событийными данными PyTorch-LifeStream
✅ Фреймворк PyBoost и бустинг под multilabel/multioutput задачи
✅ Фреймворк Sim4Rec - симулятор пользовательского отклика для сравнения, дообучения и оценки рекомендательных систем
И это еще не все!
Главное, что эти решения можно применять совместно и показывать отличные результаты:
✔️ Иван Глебов – один из участников Data Fusion Contest 2024, используя LightAutoML и PyTorch-LifeStream, смог занять 4 место при решении задачи "Модели оттока"
✔️ Использование LightAutoML совместно с PyTorch-LifeStream позволило получить одной из команд 1 место в хакатоне ВК "Машинное обучение на графах"
✔️Благодаря использованию фреймворков RePlay и Py-Boost уже нашим ребятам удалось занять 19 место из 2500+ команд и получить «серебро» в соревновании OTTO по созданию рекомендательных систем на Kaggle
Весна шагает семимильными шагами и вдохновляет нас на самые интересные предложения. Мы задумались о трансформации канала и расширении освещения в области наших open source решений.
Хотите узнавать про другие фреймворки в этом канале, получать новости по релизам, хакатонам и соревнованиям?
Если да, ставьте 🔥 к посту!
Хотите оставить только LightAutoML жмите 😢
У нас есть:
✅ Фреймворк для создания моделей рекомендаций RePlay
✅ Фреймворк для работы с событийными данными PyTorch-LifeStream
✅ Фреймворк PyBoost и бустинг под multilabel/multioutput задачи
✅ Фреймворк Sim4Rec - симулятор пользовательского отклика для сравнения, дообучения и оценки рекомендательных систем
И это еще не все!
Главное, что эти решения можно применять совместно и показывать отличные результаты:
✔️ Иван Глебов – один из участников Data Fusion Contest 2024, используя LightAutoML и PyTorch-LifeStream, смог занять 4 место при решении задачи "Модели оттока"
✔️ Использование LightAutoML совместно с PyTorch-LifeStream позволило получить одной из команд 1 место в хакатоне ВК "Машинное обучение на графах"
✔️Благодаря использованию фреймворков RePlay и Py-Boost уже нашим ребятам удалось занять 19 место из 2500+ команд и получить «серебро» в соревновании OTTO по созданию рекомендательных систем на Kaggle
Хабр
Как мы заняли первое место в хакатоне ВК «Машинное обучение на графах», где не было графов
В сентябре 2022 проходил хакатон «Машинное обучение на графах» от компании ВК на платформе «Цифровой прорыв». В хакатоне участвовала команда Лаборатории машинного обучения Альфа-Банка: Александр...
🔥57❤4😢3
Доброго вечера,
Мы продолжаем освещать участие в хакатонах с нашими open source инструментами.
Уже завтра, 17 апреля можно будет попасть на разбор TOP-решений участников соревнования Data Fusion с 18:05 до 19:00 на ежегодной конференци Data Fusion. Там будет представлен разбор решения команды Лаборатории искусственного интеллекта Сбера, занявшей 2ое место с использованием библиотеки PyTorch-LifeStream.
Зарегистрироваться на конференцию можно по ссылке
Мы продолжаем освещать участие в хакатонах с нашими open source инструментами.
Уже завтра, 17 апреля можно будет попасть на разбор TOP-решений участников соревнования Data Fusion с 18:05 до 19:00 на ежегодной конференци Data Fusion. Там будет представлен разбор решения команды Лаборатории искусственного интеллекта Сбера, занявшей 2ое место с использованием библиотеки PyTorch-LifeStream.
Зарегистрироваться на конференцию можно по ссылке
developers.sber.ru
pytorch-lifestream представляет событийные данные в виде набора чисел — embeddings
С помощью методов, реализованных в библиотеке pytorch-lifestream, можно представлять в виде набора чисел сложные событийные данные, например, истории посещений сайтов, истории покупок, события в онлайн-играх
🔥12
🔥Сегодня мы расскажем про библиотеку PyTorch-LifeStream (ссылка на видео с обзором).
Библиотека PyTorch-LifeStream содержит обширный инструментарий для создания эмбеддингов с помощью нейронных сетей на основе событийных данных. В ней есть как оригинальный алгоритм CoLES, так и модели, ранее использованные для текстов и картинок, но адаптированные для событий.
Преимущества построения эмбеддингов с использованием библиотеки PyTorch-LifeStream 💪:
✔️ Повышение качества моделей на сложных событийных данных за счет выявления скрытых признаков и связей
✔️ Меньшие затраты ИТ и человеческих ресурсов. Требуется работать с одним вектором для клиентов, что много проще и быстрее, чем работать с последовательностью сложно структурированных данных
✔️ Возможность работы с большими данными. Обучение эмбеддингов для миллионов клиентов с использованием миллиардов событий
✔️ Обезличивание. Можно работать с конфиденциальными данными без утечек, так как по эмбеддингу нельзя восстановить исходную информацию
✔️ Open source библиотека с готовыми алгоритмами для бесплатного использования
✔️ Гибкость и удобство использования. Есть готовые алгоритмы и инструменты, которые легко применить для новых данных. Можно создать единый пайплайн работ, кастомизировать модели, сравнивать результаты
Библиотека PyTorch-LifeStream содержит обширный инструментарий для создания эмбеддингов с помощью нейронных сетей на основе событийных данных. В ней есть как оригинальный алгоритм CoLES, так и модели, ранее использованные для текстов и картинок, но адаптированные для событий.
Преимущества построения эмбеддингов с использованием библиотеки PyTorch-LifeStream 💪:
✔️ Повышение качества моделей на сложных событийных данных за счет выявления скрытых признаков и связей
✔️ Меньшие затраты ИТ и человеческих ресурсов. Требуется работать с одним вектором для клиентов, что много проще и быстрее, чем работать с последовательностью сложно структурированных данных
✔️ Возможность работы с большими данными. Обучение эмбеддингов для миллионов клиентов с использованием миллиардов событий
✔️ Обезличивание. Можно работать с конфиденциальными данными без утечек, так как по эмбеддингу нельзя восстановить исходную информацию
✔️ Open source библиотека с готовыми алгоритмами для бесплатного использования
✔️ Гибкость и удобство использования. Есть готовые алгоритмы и инструменты, которые легко применить для новых данных. Можно создать единый пайплайн работ, кастомизировать модели, сравнивать результаты
YouTube
Обзор на PyTorch-LifeStream
При управлении бизнесом возникает множество задач, для решения которых может быть использовано машинное обучение. В каждой такой задаче требуется быстро исследовать много данных, в том числе событийных.
Библиотека PyTorch-LifeStream создана для работы с…
Библиотека PyTorch-LifeStream создана для работы с…
🔥17👍4❤1
Градиентный бустинг — один из самых эффективных и широко используемых алгоритмов машинного обучения на табличных данных.
Библиотека Py-Boost полностью раскрывает потенциал этого метода — благодаря широким возможностям кастомизации: кастомные лоссы на GPU, стратегии семплирования, возможность контролировать процесс обучения на любой стадии. Библиотека подходит для обучения multiclass, multilabel и multitask моделей. Чуть подробнее в этом видео
Преимущества:
✅ Быстрое обучение и применение моделей за счёт использования Python-библиотек для вычислений на GPU, например, CuPy
✅ Гибкие настройки и низкий порог входа
✅ Встроенный алгоритм SketchBoost, позволяющий значительно быстрее обучать модели бустинга с высокой точностью
Помимо замены кучи бинарных моделей на одну multilabel, фреймворк py-boost хорошо показал себя в задачах биоинформатики.
Ну и поддержка py-boost есть в gpu версии LightAutoML
Библиотека Py-Boost полностью раскрывает потенциал этого метода — благодаря широким возможностям кастомизации: кастомные лоссы на GPU, стратегии семплирования, возможность контролировать процесс обучения на любой стадии. Библиотека подходит для обучения multiclass, multilabel и multitask моделей. Чуть подробнее в этом видео
Преимущества:
✅ Быстрое обучение и применение моделей за счёт использования Python-библиотек для вычислений на GPU, например, CuPy
✅ Гибкие настройки и низкий порог входа
✅ Встроенный алгоритм SketchBoost, позволяющий значительно быстрее обучать модели бустинга с высокой точностью
Помимо замены кучи бинарных моделей на одну multilabel, фреймворк py-boost хорошо показал себя в задачах биоинформатики.
Ну и поддержка py-boost есть в gpu версии LightAutoML
GitHub
GitHub - sb-ai-lab/Py-Boost: Python based GBDT implementation on GPU. Efficient multioutput (multiclass/multilabel/multitask) training
Python based GBDT implementation on GPU. Efficient multioutput (multiclass/multilabel/multitask) training - sb-ai-lab/Py-Boost
👍9🔥4❤1
HIRING🚨
Всем приятного вечера!
Мы активно проводим поиски на вакансию AI researcher на ключевой проект по Time Series в нашу команду!
🔌 340-430 тысяч рублей + годовой бонус
📍Москва, гибридный формат
Задачи:
✅ Разработка few-shot multitask модели для временных рядов на базе трансформера без дообучения на конкретных данных
✅ Решение задач временных рядов SOTA алгоритмами, в том числе при помощи языковых LLM
✅ Участие в написании научных статей и/или разработке open-source библиотеки
Ожидаем от нового члена команды:
✅ Хорошее знание языка Python (в том числе опыт работы с ML и DL framework-ами (NumPy, SciPy, Pandas, PyTorch, Tensorflow и пр.)
✅ Глубокое понимание основ DL и классического ML, широкий кругозор в ML в целом
✅ Знание TS методов и подходов из NLP применительно к TS и желание совершенствоваться в этой области
Откликайтесь по ссылке и присоединяйтесь к команде Sber AI Lab!
По всем вопросам и рекомендациям пишите: @ekmaslennikova
Всем приятного вечера!
Мы активно проводим поиски на вакансию AI researcher на ключевой проект по Time Series в нашу команду!
🔌 340-430 тысяч рублей + годовой бонус
📍Москва, гибридный формат
Задачи:
✅ Разработка few-shot multitask модели для временных рядов на базе трансформера без дообучения на конкретных данных
✅ Решение задач временных рядов SOTA алгоритмами, в том числе при помощи языковых LLM
✅ Участие в написании научных статей и/или разработке open-source библиотеки
Ожидаем от нового члена команды:
✅ Хорошее знание языка Python (в том числе опыт работы с ML и DL framework-ами (NumPy, SciPy, Pandas, PyTorch, Tensorflow и пр.)
✅ Глубокое понимание основ DL и классического ML, широкий кругозор в ML в целом
✅ Знание TS методов и подходов из NLP применительно к TS и желание совершенствоваться в этой области
Откликайтесь по ссылке и присоединяйтесь к команде Sber AI Lab!
По всем вопросам и рекомендациям пишите: @ekmaslennikova
👍11👎2😱2🔥1
💥 Регистрируйся на хакатон!
Привет! Началась самая короткая рабочая неделя в году, а значит есть повод подумать, как провести лето! 🌞
До 5 июня открыта регистрация на хакатон "Лидеры цифровой трансформации 2024", само соревнование пройдет с 3 июня по 16 июня.
Одна из задач заключается в предсказании склонности клиента к покупке с помощью разработки мультимодальной модели, позволяющей прогнозировать выдачу продуктов в течение следующего месяца.
Мы предлагаем использовать библиотеку PyTorch-LifeStream в решении задачи, следите за бейзлайнами! А еще среди экспертах по этому треку будут соавторы библиотеки 🙃
Увидимся на хакатоне! 😍
Привет! Началась самая короткая рабочая неделя в году, а значит есть повод подумать, как провести лето! 🌞
До 5 июня открыта регистрация на хакатон "Лидеры цифровой трансформации 2024", само соревнование пройдет с 3 июня по 16 июня.
Одна из задач заключается в предсказании склонности клиента к покупке с помощью разработки мультимодальной модели, позволяющей прогнозировать выдачу продуктов в течение следующего месяца.
Мы предлагаем использовать библиотеку PyTorch-LifeStream в решении задачи, следите за бейзлайнами! А еще среди экспертах по этому треку будут соавторы библиотеки 🙃
Увидимся на хакатоне! 😍
i.moscow
Московский инновационный кластер
Московский инновационный кластер. Московский инновационный кластер создает экосистему продуктов и сервисов, а также условия, необходимые для эффективного развития инноваций и новых проектов. Подробнее на сайте.
🔥9