LightAutoML framework

Всем привет!
Вышла запись нашего вебинара в NoML Community. Постарались рассказать обо всем, что есть у нас в LAMA

Уложились по классике в ~3 часа 😇

📺 Александр Рыжков - LightAutoML: как строить ML модели быстрее

👍16🔥6

3.85K viewsOlga Plosskaya, edited 13:30

LightAutoML framework

🎁Конкурс!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что-то пошло не так;
- «Успех года с LightAutoML»: о том как Лама помогла вам ускорить свою производительность или добится существенного прироста качества за короткий срок;
- «Хакатон года с LightAutoML»: о том, как вы участвовали с Лама, с каким решением и какое место заняли, а может есть то, чего вам не хватило в Лама для победы?
- «Стахановец года с LightAutoML»: о том сколько пилотов вы сделали, внедрили моделек в пром с помощью Лама;
- «Просветитель года LightAutoML»: присылай ссылку на свою статью о том, как с помощью LAMA сделал что-либо полезное, или фреймворк тебе помог в нелегких буднях (возможно у тебя есть статья на Хабре или другом ресурсе)

Принимаем кейсы для конкурса в виде 2х красивых слайдов в pdf/pptx или ссылок на аналогичные материалы на почту ml.tools.center@gmail.com или lama_info@sberbank.ru до 30 сентября 2022 года.

Авторы лучших кейсов получат толстовки 🏆 от LightAutoML и Sber AI Lab.
Лучшие кейсы будут опубликованы в канале с согласия авторов!

🔥10👍1

5.03K viewsOlga Plosskaya, 09:02

LightAutoML framework

Forwarded from Small Data Science for Russian Adventurers

#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).

🔥35❤3👍1

2.16K viewsAlex Ryzhkov, 19:20

LightAutoML framework

Начиная с нескольких последних релизов в LightAutoML встроен функционал предсказания следующих значений временного ряда (forecasting).

Что он в себя включает:
0. Поддержка регулярных одномерных временных рядов с малым числом пропусков и дополнительными признаками.
1. Мультиатпут модели (и новые таски обучения) для предсказания сразу нескольких точек вперед одновременно, что отличает нас от аналогичных решений.
2. Простые пайплайны признаков (лаговые признаки + сезонности из дат) для фиксированного горизонта истории.
3. Модуль работы с аддитивным монотонным трендом.
4. Реализация сейчас не подразумевает тюн гиперпараметров по TS валидации.
5. Датасет должен содержать в себе колонку с таймстемпами в формате даты.

При этом сейчас мы можем работать одновременно с несколькими сегментами рядов, но только при сборке автомл пайплайна из блоков и без тренда. Айди сегмента подается как отдельный признак.

Мы также провели ряд численных экспериментов и увидели, что несмотря на крайнюю простоту подхода и простые признаки, в некоторых постановках задач LAMA работает на уровне или лучше других решений.
Обычно это:
А. Одномерные ряды среднего размера (от сотни наблюдений)
Б. В данных нет тренда, но встречается сезонность.
В. Горизонт предсказания не слишком длинный (порядка 7-20 точек).

Пример запуска на одном ряде, а также иллюстрации работы и численные результаты в комментариях к данному посту.

🔥23🎉9👍5❤2

4.13K viewsДмитрий Симаков, edited 17:42

LightAutoML framework

Насколько вам интересен и актуален функционал работы с временными рядами?
Пишите ваши пожелания в комментарии к данному опросу 👇или посту выше 👆 Улучшай LAMA вместе с нами!

Anonymous Poll

73%

Буду пробовать, мне подходит

15%

Не хватает функционала

12%

Задачи TimeSeries не актуальны

🔥6

213 voters2.87K viewsOlga Plosskaya, 18:35

LightAutoML framework

Всем привет, мы решили продлить до конца года сбор кейсов по использованию по LightAutoML. Присылайте материалы о вашем использовании LAMA: ml.tools.center@gmail.com, lama_info@sberbank.ru

С теми, кто уже ранее нам направил материалы, мы обязательно свяжемся!

LightAutoML framework

🎁Конкурс!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что…

👍7

2.5K viewsOlga Plosskaya, 07:58

LightAutoML framework

Всем привет! рады сообщить, что в зоопарке open source решений AI Lab пополнение - либа eco2AI.

Она считает экв. объем CO2 эмиссии в процессе обучения моделей.

Зачем это нужно? Оказывается, углеродный след, как и энергопотребление, является хорошей единицей измерения для оценки эффективности моделей. Можно следить не только за качеством моделей, но и за ценой прироста этого качества в эквиваленте CO2.

Будет круто, если удастся потестить, поэкспериментировать. Будем рады услышать любую критику и предложения по доработке. В профиле либы на GitHub есть ссылка на статью для понимания того, как это все работает и примеры)

Наша либа отдельно номинирована в международном конкурсе WSIS в номинации Environment. Сегодня последний день голосования.

Поддержите плиз, по ссылке:
https://www.itu.int/net4/wsis/stocktaking/Prizes/2023/Nominated?jts=GIZE1R&idx=14&page=12#start

GitHub

GitHub - sb-ai-lab/Eco2AI: eco2AI is a python library which accumulates statistics about power consumption and CO2 emission during…

eco2AI is a python library which accumulates statistics about power consumption and CO2 emission during running code. - GitHub - sb-ai-lab/Eco2AI: eco2AI is a python library which accumulates stat...

🔥18❤3👍3👎1

2.56K viewsOlga Plosskaya, edited 18:22

LightAutoML framework

Привет, всем!

Мы активно набираем команду. Есть разные задачи в области automl, recsys: ml-инженерные, data-инженерные и на стыке классического МО и DL-подходов, в том числе модели на последовательных данных.

Ищем людей с пониманием внутренней работы алгоритмов машинного обучения и хорошими навыками программирования.

Уровень: middle/senior.
Обязательно присутствие в офисе несколько дней в неделю.

Будем рады вашим откликам.

Вакансии тут 👉 https://sberailab.huntflow.io/

🔥23👍4

5.73K viewsOlga Plosskaya, 17:27

LightAutoML framework

Forwarded from Al Talent Hub

Проекты с менторами из Sber AI Lab — реальность для наших магистрантов

🤩

Так, в сентябре 2022 года магистранты Константин Темплин и Кристина Желтова познакомились на Bootcamp с экспертом из индустрии Александром Рыжковым, руководителем команды разработки LightAutoML в Sber AI Lab. А после создали инструмент для упрощения развертывания моделей машинного обучения MLJET.

Как сейчас продвигается проект и какие новые фичи ребята успели внедрить — читайте на Хабре 👉🏻 clck.ru/34ctPJ

Хотите создавать такие же крутые проекты? Присоединяйтесь к онлайн-магистратуре 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👍3

3.23K viewsOlga Plosskaya, 17:26

LightAutoML framework

🎓Всем привет, мы перезапустили наш курс по LightAutoML в формате коротких лекций и how-to видео (от 2 до 15 мин)

Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.

Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.

Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории, и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!

developers.sber.ru

Вводный курс LightAutoML – База знаний

Работа с фреймворком разработки моделей машинного обучения LightAutoML. Как функционирует библиотека фреймворка, чем она полезна и как можно научиться с ней работать.

🔥43❤3🎉2🤩1

4.16K viewsOlga Plosskaya, edited 18:43

LightAutoML framework

Forwarded from Machinelearning

Решаем ML-задачи за 60 секунд, отправляем AI торговать на бирже и изучаем мультимодальную архитектуру — на онлайн-митапе Сбера при поддержке JUG Ru Group.

🗓 29 ноября в 18:00

В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.

✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.

✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой.

Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.

➡️ Регистрация по ссылке.

Реклама. ПАО СБЕРБАНК. ИНН 7707083893.

🔥4❤2

2.82K viewsAlex Ryzhkov, 08:42

LightAutoML framework

Успех табличных нейронных сетей и новости соревновательного машинного обучения.

Сегодня завершилось соревнование Linking Writing Processes to Writing Quality на🔑. LightAutoML отлично себя показал и оказался частью как минимум 5 🥇 золотых решений.

Neural LAMA использовал в своем решении текущий Топ1 площадки Dieter.

Если вы хотите попробовать в своих задачах одну из 9 архитектур, среди которых 5 классических и 4 современных, в том числе с новыми SOTA методами кодирования признаков (PLR, SoftEmb), то просто установите нужную версию командой pip install путь/до/whl отсюда и ознакомьтесь с туториалом на github.

Для установки LAMA на Python 3.11 можете использовать whl-файл из этого Kaggle датасета. А позапускать уже готовые модельки на соревновании Linking Writing Processes можете на основе другого датасета.

UPD: В Топ1 решении тоже использовалась LAMA и PLR энкодинг.
UPD 2: После финализации результатов Топ1 поменялся, но все ещё с LAMA.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥36👍5❤2

4.8K viewsDmitry Simakov, edited 16:22

LightAutoML framework

Коллеги, всем привет!

Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:

1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.

2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).

3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета

4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab

5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃

С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.

Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML

🔥58👍10❤3🤩2🎉1

8.34K viewsAlex Ryzhkov, 11:48

LightAutoML framework

Коллеги, всем привет!

Буквально сегодня выложили приватный лидерборд соревнования DataFusion (был довольно сильный shake-up) и мы спешим поделиться отличной новостью - команда нашей лаборатории смогла занять в нем 2-ое место как на публичном, так и на приватном лидерборде.

Также стоит отметить еще несколько интересных моментов:
- Наш хороший знакомый Иван Глебов (почетный бетатестер LightAutoML) в одиночку оказался на 4-ом месте
- Один из участников соревнования получит приз за лучшее публичное решение, которое сделано на базе эмбеддингов CoLES и PyTorch-LifeStream

Ссылка на соревнование: https://ods.ai/competitions/data-fusion2024-churn/leaderboard/private

🔥33🎉7🤩4👍2❤1

2.18K viewsAlex Ryzhkov, edited 16:19

LightAutoML framework

Всем привет!
Весна шагает семимильными шагами и вдохновляет нас на самые интересные предложения. Мы задумались о трансформации канала и расширении освещения в области наших open source решений.

Хотите узнавать про другие фреймворки в этом канале, получать новости по релизам, хакатонам и соревнованиям?
Если да, ставьте 🔥 к посту!
Хотите оставить только LightAutoML жмите 😢

У нас есть:
✅ Фреймворк для создания моделей рекомендаций RePlay
✅ Фреймворк для работы с событийными данными PyTorch-LifeStream
✅ Фреймворк PyBoost и бустинг под multilabel/multioutput задачи
✅ Фреймворк Sim4Rec - симулятор пользовательского отклика для сравнения, дообучения и оценки рекомендательных систем

И это еще не все!

Главное, что эти решения можно применять совместно и показывать отличные результаты:
✔️ Иван Глебов – один из участников Data Fusion Contest 2024, используя LightAutoML и PyTorch-LifeStream, смог занять 4 место при решении задачи "Модели оттока"
✔️ Использование LightAutoML совместно с PyTorch-LifeStream позволило получить одной из команд 1 место в хакатоне ВК "Машинное обучение на графах"
✔️Благодаря использованию фреймворков RePlay и Py-Boost уже нашим ребятам удалось занять 19 место из 2500+ команд и получить «серебро» в соревновании OTTO по созданию рекомендательных систем на Kaggle

Хабр

Как мы заняли первое место в хакатоне ВК «Машинное обучение на графах», где не было графов

В сентябре 2022 проходил хакатон «Машинное обучение на графах» от компании ВК на платформе «Цифровой прорыв». В хакатоне участвовала команда Лаборатории машинного обучения Альфа-Банка: Александр...

🔥57❤4😢3

1.87K viewsOlga Plosskaya, edited 11:24

LightAutoML framework

Доброго вечера,

Мы продолжаем освещать участие в хакатонах с нашими open source инструментами.

Уже завтра, 17 апреля можно будет попасть на разбор TOP-решений участников соревнования Data Fusion с 18:05 до 19:00 на ежегодной конференци Data Fusion. Там будет представлен разбор решения команды Лаборатории искусственного интеллекта Сбера, занявшей 2ое место с использованием библиотеки PyTorch-LifeStream.

Зарегистрироваться на конференцию можно по ссылке

developers.sber.ru

pytorch-lifestream представляет событийные данные в виде набора чисел — embeddings

С помощью методов, реализованных в библиотеке pytorch-lifestream, можно представлять в виде набора чисел сложные событийные данные, например, истории посещений сайтов, истории покупок, события в онлайн-играх

🔥12

1.67K viewsOlga Plosskaya, 19:31

LightAutoML framework

🔥Сегодня мы расскажем про библиотеку PyTorch-LifeStream (ссылка на видео с обзором).

Библиотека PyTorch-LifeStream содержит обширный инструментарий для создания эмбеддингов с помощью нейронных сетей на основе событийных данных. В ней есть как оригинальный алгоритм CoLES, так и модели, ранее использованные для текстов и картинок, но адаптированные для событий.

Преимущества построения эмбеддингов с использованием библиотеки PyTorch-LifeStream 💪:

✔️ Повышение качества моделей на сложных событийных данных за счет выявления скрытых признаков и связей
✔️ Меньшие затраты ИТ и человеческих ресурсов. Требуется работать с одним вектором для клиентов, что много проще и быстрее, чем работать с последовательностью сложно структурированных данных
✔️ Возможность работы с большими данными. Обучение эмбеддингов для миллионов клиентов с использованием миллиардов событий
✔️ Обезличивание. Можно работать с конфиденциальными данными без утечек, так как по эмбеддингу нельзя восстановить исходную информацию
✔️ Open source библиотека с готовыми алгоритмами для бесплатного использования
✔️ Гибкость и удобство использования. Есть готовые алгоритмы и инструменты, которые легко применить для новых данных. Можно создать единый пайплайн работ, кастомизировать модели, сравнивать результаты

YouTube

Обзор на PyTorch-LifeStream

При управлении бизнесом возникает множество задач, для решения которых может быть использовано машинное обучение. В каждой такой задаче требуется быстро исследовать много данных, в том числе событийных.

Библиотека PyTorch-LifeStream создана для работы с…

🔥17👍4❤1

1.85K viewsOlga Plosskaya, 17:00

LightAutoML framework

Градиентный бустинг — один из самых эффективных и широко используемых алгоритмов машинного обучения на табличных данных.

Библиотека Py-Boost полностью раскрывает потенциал этого метода — благодаря широким возможностям кастомизации: кастомные лоссы на GPU, стратегии семплирования, возможность контролировать процесс обучения на любой стадии. Библиотека подходит для обучения multiclass, multilabel и multitask моделей. Чуть подробнее в этом видео

Преимущества:
✅ Быстрое обучение и применение моделей за счёт использования Python-библиотек для вычислений на GPU, например, CuPy
✅ Гибкие настройки и низкий порог входа
✅ Встроенный алгоритм SketchBoost, позволяющий значительно быстрее обучать модели бустинга с высокой точностью

Помимо замены кучи бинарных моделей на одну multilabel, фреймворк py-boost хорошо показал себя в задачах биоинформатики.

Ну и поддержка py-boost есть в gpu версии LightAutoML

GitHub

GitHub - sb-ai-lab/Py-Boost: Python based GBDT implementation on GPU. Efficient multioutput (multiclass/multilabel/multitask) training

Python based GBDT implementation on GPU. Efficient multioutput (multiclass/multilabel/multitask) training - sb-ai-lab/Py-Boost

👍9🔥4❤1

2.36K viewsOlga Plosskaya, 08:03

LightAutoML framework

HIRING🚨
Всем приятного вечера!
Мы активно проводим поиски на вакансию AI researcher на ключевой проект по Time Series в нашу команду!

🔌 340-430 тысяч рублей + годовой бонус
📍Москва, гибридный формат

Задачи:
✅ Разработка few-shot multitask модели для временных рядов на базе трансформера без дообучения на конкретных данных
✅ Решение задач временных рядов SOTA алгоритмами, в том числе при помощи языковых LLM
✅ Участие в написании научных статей и/или разработке open-source библиотеки

Ожидаем от нового члена команды:
✅ Хорошее знание языка Python (в том числе опыт работы с ML и DL framework-ами (NumPy, SciPy, Pandas, PyTorch, Tensorflow и пр.)
✅ Глубокое понимание основ DL и классического ML, широкий кругозор в ML в целом
✅ Знание TS методов и подходов из NLP применительно к TS и желание совершенствоваться в этой области

Откликайтесь по ссылке и присоединяйтесь к команде Sber AI Lab!

По всем вопросам и рекомендациям пишите: @ekmaslennikova

👍11👎2😱2🔥1

2.31K viewsOlga Plosskaya, 16:03

LightAutoML framework

💥 Регистрируйся на хакатон!

Привет! Началась самая короткая рабочая неделя в году, а значит есть повод подумать, как провести лето! 🌞
До 5 июня открыта регистрация на хакатон "Лидеры цифровой трансформации 2024", само соревнование пройдет с 3 июня по 16 июня.

Одна из задач заключается в предсказании склонности клиента к покупке с помощью разработки мультимодальной модели, позволяющей прогнозировать выдачу продуктов в течение следующего месяца.

Мы предлагаем использовать библиотеку PyTorch-LifeStream в решении задачи, следите за бейзлайнами! А еще среди экспертах по этому треку будут соавторы библиотеки 🙃

Увидимся на хакатоне! 😍

i.moscow

Московский инновационный кластер

Московский инновационный кластер. Московский инновационный кластер создает экосистему продуктов и сервисов, а также условия, необходимые для эффективного развития инноваций и новых проектов. Подробнее на сайте.

🔥9

2.55K viewsOlga, 06:32

About

Blog

Apps

Platform