Коллеги, добрый вечер!

Вы часто спрашиваете нас о научной составляющей нашего LightAutoML и о том, что находится внутри него - поделимся списком материалов, которые помогут разобраться в этой теме:
1. Вышло обновление нашей статьи на arxiv - если еще не успели ознакомиться, то она доступна тут
2. На ODS.AI доступна третья часть курса по LightAutoML, в которой рассказывается о подкапотной жизни ламы и возможностях кастомизации существующих пайплайнов

Будем рады ответить на возникающие вопросы, а также новым контрибьюторам в наше решение.

Всем добра! 🦙
HL_Ryzhkov_LightAutoML_final.pdf
1.9 MB
Всем приятного пятничного дня и будущих выходных!

Совсем недавно прошла конференция HighLoad++, на которой мы презентовали 2 новых пайплайна для нашего LightAutoML фреймворка: GPU и Spark пайплайны, позволяющие работать быстрее и использовать датасеты в миллиард строк для обучения моделей.

Мое выступление на OpenSource трибуне можно посмотреть тут с 7:12 до 21:59. Дополнительно прикладываю презентацию своего выступления. 📈

Будем рады вашим вопросам и отзывам о наших новых пайплайнах, а также контрибьюту в них нового функционала.

Всем мира и лам! 🦙
Всем привет!
Рады сообщить, что теперь LAMA: LightAutoML и ее сырцы доступны в новом репозитории 👉 по ссылке

Будем признательны, если ваши лайки хоть как-то помогут восстановить потерянное количество старого репозитория❤️

Так же доступны другие решения от нашей группы:
- Библиотека-конструктор для RecSys
- Интерпретируемый AutoML
- быстрый градиентный бустинг на GPU для multioutput задач и не только
Коллеги, всем привет!
Недавно на Kaggle открылось соревнование от American Express по предсказанию дефолта клиентов на основе информации о них в нескольких временных срезах.
Если вы тоже хотите начать участвовать в этом соревновании, то предлагаем вашему вниманию подготовленные кернелы по использованию наших инструментов:
1) Кернел на основе Py-Boost GPU с реализацией быстрой метрики
2) Кернел на LightAutoML

Также вчера стартовало ставшее уже классическим соревнование Tabular Playground Series June 2022 в необычной постановке - в датасете необходимо предсказывать значения для заполнения пропусков. Для него мы также уже подготовили quick start notebook на LightAutoML, строящий 55 моделей регрессии 🤪

Будем рады, если подготовленные материалы окажутся полезными для вас при решении соревнований.

Желаем удачи!
Привет, коллеги!

Мы снова к вам с хорошими новостями с полей практического применения инструментов нашего центра AI Lab.

Некоторое время назад завершилось соревнование Autism Prediction, в котором на приватном ЛБ нам удалось занять 23-е место из 118 (поднялись на 12 мест относительно публичного ЛБ) с использованием LightAutoML (кернел с пруфом). Мы до конца верили в устойчивость своей модели и новые данные нас за это вознаградили - shake-up всего ЛБ оказался супер-драматичным: в топ-10 приватного ЛБ оказались участники, поднявшиеся на 20+ позиций по итогу пересчета. Отдельно хочу отметить, что нам удалось серьезно (на 0.7%) обогнать коллег из Prevision.io, которых пересчет опустил на 20 позиций и поставил на 30-ое место.

Также на текущий момент мы продолжаем участие в Tabular Playground Series с предсказанием значений для пропусков в датасете. Из последнего - опробовали на соревновании 2 технологии:
1) Пока все участники пробуют решают задачу в формате one-vs-all, наш коллега Антон Вахрушев (btbpanda) решил ее в формате multioutput при помощи собственной opensource реализации градиентного бустинга на GPU Py-Boost. Решение специально уложили в публичный кернел для удобства переиспользования в этой и других задачах и что важно - такой подход показывает лучший результат среди GBM семейства и находится на уровне нейросетевых подходов.
2) Мы продолжаем развивать сам LightAutoML и на текущий момент доступна девелоперская версия c нейросетевыми моделями для табличных данных. Из нововведений в ней - Добавятся новые модели, адаптированные для табличных данных, например, densenet, resnet. По своему желанию вы можете сильно кастомизировать обучение модели и ее архитектуру (передать лосс и другие параметры). При обучение есть возможность использовать SWA для улучшения качества, а также клиппинг градиентов для регуляризации. Среди таcков, помимо стандартных задач, поддерживается мульти-регрессия и мультилэйбл. Для тех, кто заинтересовался и хочет попробовать такую версию уже сейчас, есть пример установки и работы в этом публичном кернеле. Будем рады вашей обратной связи по реализованному функционалу 😎

P.S. Благодаря вашей активной поддержке наших решений на Kaggle и поддержке международного коммьюнити @RyzhkovAlex в итоге стал двухкратным грандмастером Kaggle - по соревнованиям и по кернелам. Таких людей всего 22 человека в мире, а если считать только тех, кто тоже смог в соревнования, то всего 10. Впереди остались ачивки за посты на форуме и за датасеты - как-нибудь тоже к ним подберемся ☺️

Всем мира и добра 🦙
Forwarded from NoML Digest (Pavel Snurnitsyn)
В среду, 6 июля в 17:00 МСК встречаемся на семинаре NoML. Выступать будет
😎 Рыжков Александр, 2х Kaggle Grandmaster, Team Lead команды AutoML, Sber AI Lab

Аннотация:
“На семинаре расскажем про то, что такое AutoML и как пользоваться этой технологией для ускорения своей работы. На примере open source библиотеки LightAutoML разберем несколько туториалов и выясним, как правильно комбинировать усилия человека и машины для достижения наилучшего качества итоговой модели.”

Подключение по ссылке: meet.google.com/sba-wcab-ynd
Forwarded from NoML Digest (Pavel Snurnitsyn)
В преддверии завтрашнего семинара можно, во-первых, посмотреть статью коллег:
📄 Anton Vakhrushev, Alexander Ryzhkov, Dmitry Simakov, Rinchin Damdinov, Maxim Savchenko, Alexander Tuzhilin "LightAutoML: AutoML Solution for a Large Financial Services Ecosystem

Во-вторых, ознакомиться с кейсами нестандартного использования LightAutoML, которые Александр будет разбирать на семинаре:
📌 LightAutoML Pseudolabel NLP Baseline
📌 LightAutoML Adversarial Validation
Последний кейс подготовлен непосредственно для нашего семинара, и вообще Александр обещает, что завтра будет много нового контента про LightAutoML, так что не пропустите!
SBER_AILab_LightAutoML_Ryzhkov_NoML_06_07_22.pdf
9.5 MB
Всем привет!
Вышла запись нашего вебинара в NoML Community. Постарались рассказать обо всем, что есть у нас в LAMA

Уложились по классике в ~3 часа 😇

📺 Александр Рыжков - LightAutoML: как строить ML модели быстрее
🎁Конкурс!
Лето☀️ - отличное время оглянуться назад и подумать куда идти дальше, и мы решили запустить конкурс кейсов на Lama 🦙. Мы приготовили несколько номинаций:
- «Fail года с LightAutoML»: о том, какую классную модель вы построили с Лама, однако что-то пошло не так;
- «Успех года с LightAutoML»: о том как Лама помогла вам ускорить свою производительность или добится существенного прироста качества за короткий срок;
- «Хакатон года с LightAutoML»: о том, как вы участвовали с Лама, с каким решением и какое место заняли, а может есть то, чего вам не хватило в Лама для победы?
- «Стахановец года с LightAutoML»: о том сколько пилотов вы сделали, внедрили моделек в пром с помощью Лама;
- «Просветитель года LightAutoML»: присылай ссылку на свою статью о том, как с помощью LAMA сделал что-либо полезное, или фреймворк тебе помог в нелегких буднях (возможно у тебя есть статья на Хабре или другом ресурсе)

Принимаем кейсы для конкурса в виде 2х красивых слайдов в pdf/pptx или ссылок на аналогичные материалы на почту ml.tools.center@gmail.com или lama_info@sberbank.ru до 30 сентября 2022 года.

Авторы лучших кейсов получат толстовки 🏆 от LightAutoML и Sber AI Lab.
Лучшие кейсы будут опубликованы в канале с согласия авторов!
#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).
Начиная с нескольких последних релизов в LightAutoML встроен функционал предсказания следующих значений временного ряда (forecasting).

Что он в себя включает:
0. Поддержка регулярных одномерных временных рядов с малым числом пропусков и дополнительными признаками.
1. Мультиатпут модели (и новые таски обучения) для предсказания сразу нескольких точек вперед одновременно, что отличает нас от аналогичных решений.
2. Простые пайплайны признаков (лаговые признаки + сезонности из дат) для фиксированного горизонта истории.
3. Модуль работы с аддитивным монотонным трендом.
4. Реализация сейчас не подразумевает тюн гиперпараметров по TS валидации.
5. Датасет должен содержать в себе колонку с таймстемпами в формате даты.

При этом сейчас мы можем работать одновременно с несколькими сегментами рядов, но только при сборке автомл пайплайна из блоков и без тренда. Айди сегмента подается как отдельный признак.

Мы также провели ряд численных экспериментов и увидели, что несмотря на крайнюю простоту подхода и простые признаки, в некоторых постановках задач LAMA работает на уровне или лучше других решений.
Обычно это:
А. Одномерные ряды среднего размера (от сотни наблюдений)
Б. В данных нет тренда, но встречается сезонность.
В. Горизонт предсказания не слишком длинный (порядка 7-20 точек).

Пример запуска на одном ряде, а также иллюстрации работы и численные результаты в комментариях к данному посту.
Насколько вам интересен и актуален функционал работы с временными рядами?
Пишите ваши пожелания в комментарии к данному опросу 👇или посту выше 👆 Улучшай LAMA вместе с нами!
Anonymous Poll
73%
Буду пробовать, мне подходит
15%
Не хватает функционала
12%
Задачи TimeSeries не актуальны
Всем привет, мы решили продлить до конца года сбор кейсов по использованию по LightAutoML. Присылайте материалы о вашем использовании LAMA: ml.tools.center@gmail.com, lama_info@sberbank.ru

С теми, кто уже ранее нам направил материалы, мы обязательно свяжемся!
Всем привет! рады сообщить, что в зоопарке open source решений AI Lab пополнение - либа eco2AI.

Она считает экв. объем CO2 эмиссии в процессе обучения моделей.

Зачем это нужно? Оказывается, углеродный след, как и энергопотребление, является хорошей единицей измерения для оценки эффективности моделей. Можно следить не только за качеством моделей, но и за ценой прироста этого качества в эквиваленте CO2.

Будет круто, если удастся потестить, поэкспериментировать. Будем рады услышать любую критику и предложения по доработке. В профиле либы на GitHub есть ссылка на статью для понимания того, как это все работает и примеры)

Наша либа отдельно номинирована в международном конкурсе WSIS в номинации Environment. Сегодня последний день голосования.

Поддержите плиз, по ссылке:
https://www.itu.int/net4/wsis/stocktaking/Prizes/2023/Nominated?jts=GIZE1R&idx=14&page=12#start
Привет, всем!

Мы активно набираем команду. Есть разные задачи в области automl, recsys: ml-инженерные, data-инженерные и на стыке классического МО и DL-подходов, в том числе модели на последовательных данных.

Ищем людей с пониманием внутренней работы алгоритмов машинного обучения и хорошими навыками программирования.

Уровень: middle/senior.
Обязательно присутствие в офисе несколько дней в неделю.

Будем рады вашим откликам.

Вакансии тут 👉 https://sberailab.huntflow.io/
Forwarded from Al Talent Hub
Проекты с менторами из Sber AI Lab — реальность для наших магистрантов 🤩

Так, в сентябре 2022 года магистранты Константин Темплин и Кристина Желтова познакомились на Bootcamp с экспертом из индустрии Александром Рыжковым, руководителем команды разработки LightAutoML в Sber AI Lab. А после создали инструмент для упрощения развертывания моделей машинного обучения MLJET.

Как сейчас продвигается проект и какие новые фичи ребята успели внедрить — читайте на Хабре 👉🏻 clck.ru/34ctPJ

Хотите создавать такие же крутые проекты? Присоединяйтесь к онлайн-магистратуре 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🎓Всем привет, мы перезапустили наш курс по LightAutoML в формате коротких лекций и how-to видео (от 2 до 15 мин)

Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.

Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.

Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории, и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!
Forwarded from Machinelearning
Решаем ML-задачи за 60 секунд, отправляем AI торговать на бирже и изучаем мультимодальную архитектуру — на онлайн-митапе Сбера при поддержке JUG Ru Group.

🗓 29 ноября в 18:00

В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.

✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.

✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой. 

Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.

➡️ Регистрация по ссылке.

Реклама. ПАО СБЕРБАНК. ИНН 7707083893.
Успех табличных нейронных сетей и новости соревновательного машинного обучения.

Сегодня завершилось соревнование Linking Writing Processes to Writing Quality на🔑. LightAutoML отлично себя показал и оказался частью как минимум 5 🥇 золотых решений.

Neural LAMA использовал в своем решении текущий Топ1 площадки Dieter.

Если вы хотите попробовать в своих задачах одну из 9 архитектур, среди которых 5 классических и 4 современных, в том числе с новыми SOTA методами кодирования признаков (PLR, SoftEmb), то просто установите нужную версию командой pip install путь/до/whl отсюда и ознакомьтесь с туториалом на github.

Для установки LAMA на Python 3.11 можете использовать whl-файл из этого Kaggle датасета. А позапускать уже готовые модельки на соревновании Linking Writing Processes можете на основе другого датасета.

UPD: В Топ1 решении тоже использовалась LAMA и PLR энкодинг.
UPD 2: После финализации результатов Топ1 поменялся, но все ещё с LAMA.
Please open Telegram to view this post
VIEW IN TELEGRAM
Коллеги, всем привет!

Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:

1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.

2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).

3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета

4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab

5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃

С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.

Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML