LightAutoML framework
3.22K subscribers
31 photos
3 videos
6 files
119 links
Download Telegram
Успех табличных нейронных сетей и новости соревновательного машинного обучения.

Сегодня завершилось соревнование Linking Writing Processes to Writing Quality на🔑. LightAutoML отлично себя показал и оказался частью как минимум 5 🥇 золотых решений.

Neural LAMA использовал в своем решении текущий Топ1 площадки Dieter.

Если вы хотите попробовать в своих задачах одну из 9 архитектур, среди которых 5 классических и 4 современных, в том числе с новыми SOTA методами кодирования признаков (PLR, SoftEmb), то просто установите нужную версию командой pip install путь/до/whl отсюда и ознакомьтесь с туториалом на github.

Для установки LAMA на Python 3.11 можете использовать whl-файл из этого Kaggle датасета. А позапускать уже готовые модельки на соревновании Linking Writing Processes можете на основе другого датасета.

UPD: В Топ1 решении тоже использовалась LAMA и PLR энкодинг.
UPD 2: После финализации результатов Топ1 поменялся, но все ещё с LAMA.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36👍52
Коллеги, всем привет!

Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:

1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.

2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).

3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета

4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab

5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃

С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.

Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML
🔥58👍103🤩2🎉1
Коллеги, всем привет!

Буквально сегодня выложили приватный лидерборд соревнования DataFusion (был довольно сильный shake-up) и мы спешим поделиться отличной новостью - команда нашей лаборатории смогла занять в нем 2-ое место как на публичном, так и на приватном лидерборде.

Также стоит отметить еще несколько интересных моментов:
- Наш хороший знакомый Иван Глебов (почетный бетатестер LightAutoML) в одиночку оказался на 4-ом месте
- Один из участников соревнования получит приз за лучшее публичное решение, которое сделано на базе эмбеддингов CoLES и PyTorch-LifeStream

Ссылка на соревнование: https://ods.ai/competitions/data-fusion2024-churn/leaderboard/private
🔥33🎉7🤩4👍21
Всем привет!
Весна шагает семимильными шагами и вдохновляет нас на самые интересные предложения. Мы задумались о трансформации канала и расширении освещения в области наших open source решений.

Хотите узнавать про другие фреймворки в этом канале, получать новости по релизам, хакатонам и соревнованиям?
Если да, ставьте 🔥 к посту!
Хотите оставить только LightAutoML жмите 😢

У нас есть:
Фреймворк для создания моделей рекомендаций RePlay
Фреймворк для работы с событийными данными PyTorch-LifeStream
Фреймворк PyBoost и бустинг под multilabel/multioutput задачи
Фреймворк Sim4Rec - симулятор пользовательского отклика для сравнения, дообучения и оценки рекомендательных систем

И это еще не все!

Главное, что эти решения можно применять совместно и показывать отличные результаты:
✔️ Иван Глебов – один из участников Data Fusion Contest 2024, используя LightAutoML и PyTorch-LifeStream, смог занять 4 место при решении задачи "Модели оттока"
✔️ Использование LightAutoML совместно с PyTorch-LifeStream позволило получить одной из команд 1 место в хакатоне ВК "Машинное обучение на графах"
✔️Благодаря использованию фреймворков RePlay и Py-Boost уже нашим ребятам удалось занять 19 место из 2500+ команд и получить «серебро» в соревновании OTTO по созданию рекомендательных систем на Kaggle
🔥574😢3
Доброго вечера,

Мы продолжаем освещать участие в хакатонах с нашими open source инструментами.

Уже завтра, 17 апреля можно будет попасть на разбор TOP-решений участников соревнования Data Fusion с 18:05 до 19:00 на ежегодной конференци Data Fusion. Там будет представлен разбор решения команды Лаборатории искусственного интеллекта Сбера, занявшей 2ое место с использованием библиотеки PyTorch-LifeStream.

Зарегистрироваться на конференцию можно по ссылке
🔥12
🔥Сегодня мы расскажем про библиотеку PyTorch-LifeStream (ссылка на видео с обзором).

Библиотека PyTorch-LifeStream содержит обширный инструментарий для создания эмбеддингов с помощью нейронных сетей на основе событийных данных. В ней есть как оригинальный алгоритм CoLES, так и модели, ранее использованные для текстов и картинок, но адаптированные для событий.

Преимущества построения эмбеддингов с использованием библиотеки PyTorch-LifeStream 💪:

✔️ Повышение качества моделей на сложных событийных данных за счет выявления скрытых признаков и связей
✔️ Меньшие затраты ИТ и человеческих ресурсов. Требуется работать с одним вектором для клиентов, что много проще и быстрее, чем работать с последовательностью сложно структурированных данных
✔️ Возможность работы с большими данными. Обучение эмбеддингов для миллионов клиентов с использованием миллиардов событий
✔️ Обезличивание. Можно работать с конфиденциальными данными без утечек, так как по эмбеддингу нельзя восстановить исходную информацию
✔️ Open source библиотека с готовыми алгоритмами для бесплатного использования
✔️ Гибкость и удобство использования. Есть готовые алгоритмы и инструменты, которые легко применить для новых данных. Можно создать единый пайплайн работ, кастомизировать модели, сравнивать результаты
🔥17👍41
Градиентный бустинг — один из самых эффективных и широко используемых алгоритмов машинного обучения на табличных данных.

Библиотека Py-Boost полностью раскрывает потенциал этого метода — благодаря широким возможностям кастомизации: кастомные лоссы на GPU, стратегии семплирования, возможность контролировать процесс обучения на любой стадии. Библиотека подходит для обучения multiclass, multilabel и multitask моделей. Чуть подробнее в этом видео

Преимущества:
Быстрое обучение и применение моделей за счёт использования Python-библиотек для вычислений на GPU, например, CuPy
Гибкие настройки и низкий порог входа
Встроенный алгоритм SketchBoost, позволяющий значительно быстрее обучать модели бустинга с высокой точностью

Помимо замены кучи бинарных моделей на одну multilabel, фреймворк py-boost хорошо показал себя в задачах биоинформатики.

Ну и поддержка py-boost есть в gpu версии LightAutoML
👍9🔥41
HIRING🚨
Всем приятного вечера!
Мы активно проводим поиски на вакансию AI researcher на ключевой проект по Time Series в нашу команду!

🔌 340-430 тысяч рублей + годовой бонус
📍Москва, гибридный формат

Задачи:

Разработка few-shot multitask модели для временных рядов на базе трансформера без дообучения на конкретных данных
Решение задач временных рядов SOTA алгоритмами, в том числе при помощи языковых LLM
Участие в написании научных статей и/или разработке open-source библиотеки

Ожидаем от нового члена команды:
Хорошее знание языка Python (в том числе опыт работы с ML и DL framework-ами (NumPy, SciPy, Pandas, PyTorch, Tensorflow и пр.)
Глубокое понимание основ DL и классического ML, широкий кругозор в ML в целом
Знание TS методов и подходов из NLP применительно к TS и желание совершенствоваться в этой области

Откликайтесь по ссылке и присоединяйтесь к команде Sber AI Lab!

По всем вопросам и рекомендациям пишите: @ekmaslennikova
👍11👎2😱2🔥1
💥 Регистрируйся на хакатон!

Привет! Началась самая короткая рабочая неделя в году, а значит есть повод подумать, как провести лето! 🌞
До 5 июня открыта регистрация на хакатон "Лидеры цифровой трансформации 2024", само соревнование пройдет с 3 июня по 16 июня.

Одна из задач заключается в предсказании склонности клиента к покупке с помощью разработки мультимодальной модели, позволяющей прогнозировать выдачу продуктов в течение следующего месяца.

Мы предлагаем использовать библиотеку PyTorch-LifeStream в решении задачи, следите за бейзлайнами! А еще среди экспертах по этому треку будут соавторы библиотеки 🙃

Увидимся на хакатоне! 😍
🔥9
AutoML_Grand_Prix.pdf
350.1 KB
Мир, труд, май ✌️

01.05.24 на сореве Kaggle TabularPlaygroundSeries May 2024 #AutoMLGrandPrix команда "LightAutoML testers" обошла все команды Долины (H2O, Amazon, Microsoft со своими решениями - Driveless AI, AutoGluon, FLAML). Описание и код решения уже доступны в публичном доступе.

Следующие раунды соревнования пройдут 01.06.24, 01.07.24, 01.08.24 и 01.09.24 (каждый из которых продлится всего 24 часа)

Happy Kaggling 🦙
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉52🔥223👍3🤩1
Коллеги, всем доброго дня!

Если вы еще не успели ткнуть ⭐️ на гитхабе на https://github.com/sb-ai-lab/LightAutoML, то самое время это сделать.

Наша глобальная текущая цель - собрать 1000 звезд и попасть в окружение Kaggle на постоянной основе!

Будем рады, если вы нас в этом поддержите ❤️
👍28🤩42
Всем привет, коллеги!

Буквально сегодня ночью на Kaggle завершилось соревнование Home Credit - Credit Risk Model Stability на почти 4к команд, сутью которого было предсказать, какие клиенты с большей вероятностью не выплатят свои кредиты. Отдельным челленджем являлась задача сделать свою модель максимально стабильной во времени. По итогу это была задача кредитного скоринга на табличках (что в текущих реалиях довольно большая редкость для Kaggle).

🤖 LightAutoML показал себя в нем максимально достойно:
- Благодаря усилиям Андрея Нестерова и его ноутбуку с использованием моделей Denselight из LightAutoML можно было получить серебряную медаль и занять 40 место из 3885
- Если же использовать ноутбук с большим количеством моделей в композиции (включающим модели из LightAutoML), то можно было забраться в призы (заработать $10к 💸) и финишировать на 4-ом месте 🔥

👀(И это пока что результаты без учета решений победителей, которые еще не опубликованы)

Happy Kaggling with LightAutoML 🦙

P.S. Большое спасибо всем тем, кто помог дотолкать наш GitHub репозиторий до важной планки ⭐️1к+ - эта история позволила нам создать запрос на добавление LightAutoML в официальный Kaggle Kernel environment. При желании его тоже можно поддержать, как это уже успел сделать Самвел 🥹
🔥38👍92🤩1
Media is too big
VIEW IN TELEGRAM
🔥 Привет, друзья! У нас для вас интересное предложение ☺️

Хотите помочь повысить эффективность рекомендаций? Тогда залетайте к нам!

Мы предлагаем решить нашу задачу 12 — разработать предиктивную модель для рекомендации продуктов банка

🟩 Что нужно сделать
Разработать мультимодальную модель, позволяющую прогнозировать выдачу продуктов в течение следующего месяца. Обязательное условие: использование библиотеки PyTorch-LifeStream в решении задачи

🟥 Призовой фонд задачи

1 место — 1 000 000 ₽
2 место — 600 000 ₽
3 место — 400 000 ₽

Присоединяйтесь к международному хакатону! Разработка начнется уже 3 июня. Успейте зарегистрироваться до 5 июня включительно!

🟢English version
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥32
Forwarded from HypEx (Дмитрий Тихомиров)
Привет, друзья! 🎉

🌟 Есть новость, от которой у нас просто космос! Наш проект HypEx выиграл награду "Перспективный проект" в премии Гравитация! 🚀

Огромное спасибо всей нашей команде за труд и энтузиазм. Вы супер! 👩‍💻👨‍💻 И благодарим наших замечательных внешних контрибьюторов, а также пользователей за их фидбек и новые идеи. Без вас ничего бы не получилось! 🌟

Спасибо премии Гравитация за признание! Теперь мы знаем, что разные гипотезы могут действительно тянуть нас к новым вершинам (ну, или к звёздам💫). 😉

Если ещё не поставили нам звёздочку на GitHub, самое время это сделать! 🌟 Это помогает нам становиться лучше.

Двигаемся вперёд, оставайтесь с нами — многое ещё впереди!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍7