LightAutoML framework
3.21K subscribers
32 photos
3 videos
6 files
120 links
Download Telegram
SBER_AILab_LightAutoML_Ryzhkov_NoML_06_07_22.pdf
9.5 MB
Всем привет!
Вышла запись нашего вебинара в NoML Community. Постарались рассказать обо всем, что есть у нас в LAMA

Уложились по классике в ~3 часа 😇

📺 Александр Рыжков - LightAutoML: как строить ML модели быстрее
👍16🔥6
🎁Конкурс!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что-то пошло не так;
- «Успех года с LightAutoML»: о том как Лама помогла вам ускорить свою производительность или добится существенного прироста качества за короткий срок;
- «Хакатон года с LightAutoML»: о том, как вы участвовали с Лама, с каким решением и какое место заняли, а может есть то, чего вам не хватило в Лама для победы?
- «Стахановец года с LightAutoML»: о том сколько пилотов вы сделали, внедрили моделек в пром с помощью Лама;
- «Просветитель года LightAutoML»: присылай ссылку на свою статью о том, как с помощью LAMA сделал что-либо полезное, или фреймворк тебе помог в нелегких буднях (возможно у тебя есть статья на Хабре или другом ресурсе)

Принимаем кейсы для конкурса в виде 2х красивых слайдов в pdf/pptx или ссылок на аналогичные материалы на почту ml.tools.center@gmail.com или lama_info@sberbank.ru до 30 сентября 2022 года.

Авторы лучших кейсов получат толстовки 🏆 от LightAutoML и Sber AI Lab.
Лучшие кейсы будут опубликованы в канале с согласия авторов!
🔥10👍1
#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).
🔥353👍1
Начиная с нескольких последних релизов в LightAutoML встроен функционал предсказания следующих значений временного ряда (forecasting).

Что он в себя включает:
0. Поддержка регулярных одномерных временных рядов с малым числом пропусков и дополнительными признаками.
1. Мультиатпут модели (и новые таски обучения) для предсказания сразу нескольких точек вперед одновременно, что отличает нас от аналогичных решений.
2. Простые пайплайны признаков (лаговые признаки + сезонности из дат) для фиксированного горизонта истории.
3. Модуль работы с аддитивным монотонным трендом.
4. Реализация сейчас не подразумевает тюн гиперпараметров по TS валидации.
5. Датасет должен содержать в себе колонку с таймстемпами в формате даты.

При этом сейчас мы можем работать одновременно с несколькими сегментами рядов, но только при сборке автомл пайплайна из блоков и без тренда. Айди сегмента подается как отдельный признак.

Мы также провели ряд численных экспериментов и увидели, что несмотря на крайнюю простоту подхода и простые признаки, в некоторых постановках задач LAMA работает на уровне или лучше других решений.
Обычно это:
А. Одномерные ряды среднего размера (от сотни наблюдений)
Б. В данных нет тренда, но встречается сезонность.
В. Горизонт предсказания не слишком длинный (порядка 7-20 точек).

Пример запуска на одном ряде, а также иллюстрации работы и численные результаты в комментариях к данному посту.
🔥23🎉9👍52
Насколько вам интересен и актуален функционал работы с временными рядами?
Пишите ваши пожелания в комментарии к данному опросу 👇или посту выше 👆 Улучшай LAMA вместе с нами!
Anonymous Poll
73%
Буду пробовать, мне подходит
15%
Не хватает функционала
12%
Задачи TimeSeries не актуальны
🔥6
Всем привет, мы решили продлить до конца года сбор кейсов по использованию по LightAutoML. Присылайте материалы о вашем использовании LAMA: ml.tools.center@gmail.com, lama_info@sberbank.ru

С теми, кто уже ранее нам направил материалы, мы обязательно свяжемся!
👍7
Всем привет! рады сообщить, что в зоопарке open source решений AI Lab пополнение - либа eco2AI.

Она считает экв. объем CO2 эмиссии в процессе обучения моделей.

Зачем это нужно? Оказывается, углеродный след, как и энергопотребление, является хорошей единицей измерения для оценки эффективности моделей. Можно следить не только за качеством моделей, но и за ценой прироста этого качества в эквиваленте CO2.

Будет круто, если удастся потестить, поэкспериментировать. Будем рады услышать любую критику и предложения по доработке. В профиле либы на GitHub есть ссылка на статью для понимания того, как это все работает и примеры)

Наша либа отдельно номинирована в международном конкурсе WSIS в номинации Environment. Сегодня последний день голосования.

Поддержите плиз, по ссылке:
https://www.itu.int/net4/wsis/stocktaking/Prizes/2023/Nominated?jts=GIZE1R&idx=14&page=12#start
🔥183👍3👎1
Привет, всем!

Мы активно набираем команду. Есть разные задачи в области automl, recsys: ml-инженерные, data-инженерные и на стыке классического МО и DL-подходов, в том числе модели на последовательных данных.

Ищем людей с пониманием внутренней работы алгоритмов машинного обучения и хорошими навыками программирования.

Уровень: middle/senior.
Обязательно присутствие в офисе несколько дней в неделю.

Будем рады вашим откликам.

Вакансии тут 👉 https://sberailab.huntflow.io/
🔥23👍4
Forwarded from Al Talent Hub
Проекты с менторами из Sber AI Lab — реальность для наших магистрантов 🤩

Так, в сентябре 2022 года магистранты Константин Темплин и Кристина Желтова познакомились на Bootcamp с экспертом из индустрии Александром Рыжковым, руководителем команды разработки LightAutoML в Sber AI Lab. А после создали инструмент для упрощения развертывания моделей машинного обучения MLJET.

Как сейчас продвигается проект и какие новые фичи ребята успели внедрить — читайте на Хабре 👉🏻 clck.ru/34ctPJ

Хотите создавать такие же крутые проекты? Присоединяйтесь к онлайн-магистратуре 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍3
🎓Всем привет, мы перезапустили наш курс по LightAutoML в формате коротких лекций и how-to видео (от 2 до 15 мин)

Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.

Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.

Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории, и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!
🔥433🎉2🤩1
Forwarded from Machinelearning
Решаем ML-задачи за 60 секунд, отправляем AI торговать на бирже и изучаем мультимодальную архитектуру — на онлайн-митапе Сбера при поддержке JUG Ru Group.

🗓 29 ноября в 18:00

В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.

✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.

✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой. 

Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.

➡️ Регистрация по ссылке.

Реклама. ПАО СБЕРБАНК. ИНН 7707083893.
🔥42
Успех табличных нейронных сетей и новости соревновательного машинного обучения.

Сегодня завершилось соревнование Linking Writing Processes to Writing Quality на🔑. LightAutoML отлично себя показал и оказался частью как минимум 5 🥇 золотых решений.

Neural LAMA использовал в своем решении текущий Топ1 площадки Dieter.

Если вы хотите попробовать в своих задачах одну из 9 архитектур, среди которых 5 классических и 4 современных, в том числе с новыми SOTA методами кодирования признаков (PLR, SoftEmb), то просто установите нужную версию командой pip install путь/до/whl отсюда и ознакомьтесь с туториалом на github.

Для установки LAMA на Python 3.11 можете использовать whl-файл из этого Kaggle датасета. А позапускать уже готовые модельки на соревновании Linking Writing Processes можете на основе другого датасета.

UPD: В Топ1 решении тоже использовалась LAMA и PLR энкодинг.
UPD 2: После финализации результатов Топ1 поменялся, но все ещё с LAMA.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36👍52
Коллеги, всем привет!

Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:

1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.

2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).

3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета

4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab

5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃

С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.

Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML
🔥58👍103🤩2🎉1
Коллеги, всем привет!

Буквально сегодня выложили приватный лидерборд соревнования DataFusion (был довольно сильный shake-up) и мы спешим поделиться отличной новостью - команда нашей лаборатории смогла занять в нем 2-ое место как на публичном, так и на приватном лидерборде.

Также стоит отметить еще несколько интересных моментов:
- Наш хороший знакомый Иван Глебов (почетный бетатестер LightAutoML) в одиночку оказался на 4-ом месте
- Один из участников соревнования получит приз за лучшее публичное решение, которое сделано на базе эмбеддингов CoLES и PyTorch-LifeStream

Ссылка на соревнование: https://ods.ai/competitions/data-fusion2024-churn/leaderboard/private
🔥33🎉7🤩4👍21
Всем привет!
Весна шагает семимильными шагами и вдохновляет нас на самые интересные предложения. Мы задумались о трансформации канала и расширении освещения в области наших open source решений.

Хотите узнавать про другие фреймворки в этом канале, получать новости по релизам, хакатонам и соревнованиям?
Если да, ставьте 🔥 к посту!
Хотите оставить только LightAutoML жмите 😢

У нас есть:
Фреймворк для создания моделей рекомендаций RePlay
Фреймворк для работы с событийными данными PyTorch-LifeStream
Фреймворк PyBoost и бустинг под multilabel/multioutput задачи
Фреймворк Sim4Rec - симулятор пользовательского отклика для сравнения, дообучения и оценки рекомендательных систем

И это еще не все!

Главное, что эти решения можно применять совместно и показывать отличные результаты:
✔️ Иван Глебов – один из участников Data Fusion Contest 2024, используя LightAutoML и PyTorch-LifeStream, смог занять 4 место при решении задачи "Модели оттока"
✔️ Использование LightAutoML совместно с PyTorch-LifeStream позволило получить одной из команд 1 место в хакатоне ВК "Машинное обучение на графах"
✔️Благодаря использованию фреймворков RePlay и Py-Boost уже нашим ребятам удалось занять 19 место из 2500+ команд и получить «серебро» в соревновании OTTO по созданию рекомендательных систем на Kaggle
🔥574😢3
Доброго вечера,

Мы продолжаем освещать участие в хакатонах с нашими open source инструментами.

Уже завтра, 17 апреля можно будет попасть на разбор TOP-решений участников соревнования Data Fusion с 18:05 до 19:00 на ежегодной конференци Data Fusion. Там будет представлен разбор решения команды Лаборатории искусственного интеллекта Сбера, занявшей 2ое место с использованием библиотеки PyTorch-LifeStream.

Зарегистрироваться на конференцию можно по ссылке
🔥12
🔥Сегодня мы расскажем про библиотеку PyTorch-LifeStream (ссылка на видео с обзором).

Библиотека PyTorch-LifeStream содержит обширный инструментарий для создания эмбеддингов с помощью нейронных сетей на основе событийных данных. В ней есть как оригинальный алгоритм CoLES, так и модели, ранее использованные для текстов и картинок, но адаптированные для событий.

Преимущества построения эмбеддингов с использованием библиотеки PyTorch-LifeStream 💪:

✔️ Повышение качества моделей на сложных событийных данных за счет выявления скрытых признаков и связей
✔️ Меньшие затраты ИТ и человеческих ресурсов. Требуется работать с одним вектором для клиентов, что много проще и быстрее, чем работать с последовательностью сложно структурированных данных
✔️ Возможность работы с большими данными. Обучение эмбеддингов для миллионов клиентов с использованием миллиардов событий
✔️ Обезличивание. Можно работать с конфиденциальными данными без утечек, так как по эмбеддингу нельзя восстановить исходную информацию
✔️ Open source библиотека с готовыми алгоритмами для бесплатного использования
✔️ Гибкость и удобство использования. Есть готовые алгоритмы и инструменты, которые легко применить для новых данных. Можно создать единый пайплайн работ, кастомизировать модели, сравнивать результаты
🔥17👍41
Градиентный бустинг — один из самых эффективных и широко используемых алгоритмов машинного обучения на табличных данных.

Библиотека Py-Boost полностью раскрывает потенциал этого метода — благодаря широким возможностям кастомизации: кастомные лоссы на GPU, стратегии семплирования, возможность контролировать процесс обучения на любой стадии. Библиотека подходит для обучения multiclass, multilabel и multitask моделей. Чуть подробнее в этом видео

Преимущества:
Быстрое обучение и применение моделей за счёт использования Python-библиотек для вычислений на GPU, например, CuPy
Гибкие настройки и низкий порог входа
Встроенный алгоритм SketchBoost, позволяющий значительно быстрее обучать модели бустинга с высокой точностью

Помимо замены кучи бинарных моделей на одну multilabel, фреймворк py-boost хорошо показал себя в задачах биоинформатики.

Ну и поддержка py-boost есть в gpu версии LightAutoML
👍9🔥41
HIRING🚨
Всем приятного вечера!
Мы активно проводим поиски на вакансию AI researcher на ключевой проект по Time Series в нашу команду!

🔌 340-430 тысяч рублей + годовой бонус
📍Москва, гибридный формат

Задачи:

Разработка few-shot multitask модели для временных рядов на базе трансформера без дообучения на конкретных данных
Решение задач временных рядов SOTA алгоритмами, в том числе при помощи языковых LLM
Участие в написании научных статей и/или разработке open-source библиотеки

Ожидаем от нового члена команды:
Хорошее знание языка Python (в том числе опыт работы с ML и DL framework-ами (NumPy, SciPy, Pandas, PyTorch, Tensorflow и пр.)
Глубокое понимание основ DL и классического ML, широкий кругозор в ML в целом
Знание TS методов и подходов из NLP применительно к TS и желание совершенствоваться в этой области

Откликайтесь по ссылке и присоединяйтесь к команде Sber AI Lab!

По всем вопросам и рекомендациям пишите: @ekmaslennikova
👍11👎2😱2🔥1
💥 Регистрируйся на хакатон!

Привет! Началась самая короткая рабочая неделя в году, а значит есть повод подумать, как провести лето! 🌞
До 5 июня открыта регистрация на хакатон "Лидеры цифровой трансформации 2024", само соревнование пройдет с 3 июня по 16 июня.

Одна из задач заключается в предсказании склонности клиента к покупке с помощью разработки мультимодальной модели, позволяющей прогнозировать выдачу продуктов в течение следующего месяца.

Мы предлагаем использовать библиотеку PyTorch-LifeStream в решении задачи, следите за бейзлайнами! А еще среди экспертах по этому треку будут соавторы библиотеки 🙃

Увидимся на хакатоне! 😍
🔥9