LightAutoML framework
3.21K subscribers
32 photos
3 videos
6 files
120 links
Download Telegram
#release_notes
В версии 0.2.12:
- Добавлена интерпретацию NLP моделей на основе LIME.
- Появилась расширенная поддержка HF моделей для обучения и извлечения эмбеддингов.
- Исправлен ряд багов, связанных с передачей языка в некоторые алгоритмы извлечения эмбеддингов и токенайзеров.
Коллеги, всем привет!
❗️Рады поделиться новостью: мы в Sber AI Lab запускаем практический курс 🎓 LightAutoML - фреймворк для автоматического построения моделей машинного обучения.

Фреймворк полностью открытый, так как opensource, работает пока на табличных данных, однако на этот год у нас достаточно плотный roadmap. Курс будут читать авторы и разработчики фреймворка - маcтера и градмастер Kaggle🥇🥇🎖. В конце всех лекций вас ждут лайфхаки и байки лучших практик Kaggle и анонс inclass-соревнования для слушателей курса🎁!

Фреймворк позволяет за короткий промежуток времени построить автоматически пайплайн модели, работающий на уровне топ-10% DS 🎰. Пока машина строит пайплайны за вас 🤖, можно продолжать работать осмысленно 🛀 над построением новых фичей, основанных на бизнес-знаниях, и получать результаты выше.

Курс состоит из 9 вебинаров 🧑‍💻, будет проходить еженедельно по средам с 28 апреля в 19.00 по Мск. Регистрация по ссылке

P.S. Много полезного по фреймворку есть на Github. Будем рады звездочкам ⭐️ и ждем всех на курсе.
#ответы_на_вопросы
Вопрос: Что делать, если на этапе создания объекта Task возникла ошибка с текстом "Cannot infer greater is better from metric. Should be set manually."
Ответ: В данном моменте произошла следующая ситуация - lightautoml не смог автоматом определить куда нужно оптимизировать метрику (в сторону максимума или в сторону минимума). Для решения проблемы необходимо вручную задать в Task аргумент greater_is_better с соответствующим значением True или False (например, для AUC это True, a для LogLoss это False)
#примеры
Всем привет! Чтобы решать бизнес-задачи, AutoML должен не только получать качественное решение, но и делать это быстро. А если хочется понимания, что же он такого настроил - то еще и интерпретируемым. Поэтому сегодня хотел бы поделиться примерами использования LightAutoML в различных задачах, где необходимо было быстро получить результат:
1. Прогнозирование стоимости квартиры (1.5 часа на 7 прогонов LightAutoML, датасет 40к * 31 фичу)
2. Прогнозирование дефолта заемщика (10 минут, датасет 210к * 47 фичей)
3. Интерпретируемая модель для TabularPlaygroundSeries-April c автоматическим построением отчета и SQL-запроса для инференса
LightAutoML framework pinned «Коллеги, всем привет! ❗️Рады поделиться новостью: мы в Sber AI Lab запускаем практический курс 🎓 LightAutoML - фреймворк для автоматического построения моделей машинного обучения. Фреймворк полностью открытый, так как opensource, работает пока на табличных…»
Коллеги, добрый вечер! Всех, у кого появились вопросы по нашему решению, курсу, планам развития да и в общем-то всему что хочется обсудить - приглашаю в чат, связанный с данным каналом. В него можно попасть не только по кнопке комментировать под каждым сообщением, но и напрямую по ссылке: https://t.me/joinchat/WQDt8U7hZGJlMTgy
#статьи
Для тех, кто присоединился к нам недавно или пропустил - хотел бы поделиться нашей статьей на TowardsDataScience по использованию LightAutoML на задаче Titanic Disaster. Из интересного - в ней рассказано как за 12 строк кода (включая импорты, загрузки и сохранения данных и пустые строки для лучшей читаемости) получить 78% точности и приведено решение на 80%, которое можно использовать в качестве шаблона для решения прикладных ML задач.
#анонсы
Коллеги, всем привет!
Уже завтра вечером стартует наш курс по LightAutoML. Приходите сами и обязательно зовите заинтересованных друзей (и приглашайте их сюда) - будет интересно 👍
#вопрос_к_коммьюнити
Друзья-коллеги,
Поступило интересное предложение - домашние задания после лекций курса. Поставьте, пожалуйста, плюсиков в комменты, кто готов поддержать эту инициативу - оценим объем желающих 👇
Коллеги, привет.
Возникают вопросы по доступу на вебинар. Рассылка делается вручную: за сутки до вебинара в 19.00, в день вебинара в 18.00. По записям подробно пишем в рассылке.
Если вы зарегистрировались после этого времени, то попадете только в следующую рассылку. Просим отнестись с пониманием. 😇
#домашка
Через полтора часа начнется первый вебинар нашего курса. А для тех, кто очень хотел домашку - она уже готова: https://www.kaggle.com/t/7e9b43b6978b4c18a58c6b60a2da2ed8
В соревновании нужно решать задачу регрессии - предсказать стоимость машины по описывающим ее признакам.
В качестве baseline есть как простые варианты (типа среднего и медианы), так и пример решения с использованием LightAutoML - https://www.kaggle.com/alexryzhkov/lightautoml-starter-for-hw1
Please enjoy :)
LightAutoML framework pinned «Коллеги, привет. Возникают вопросы по доступу на вебинар. Рассылка делается вручную: за сутки до вебинара в 19.00, в день вебинара в 18.00. По записям подробно пишем в рассылке. Если вы зарегистрировались после этого времени, то попадете только в следующую…»
Через час стартует курс, и в эфире минутка аналитики!
Итак, уже зарегистрировалось 756 человек. Интересно, сколько дойдут до вебинара?

Большая часть аудитории ассоциирует себя с Data Scientist, на втором месте "не определившиеся" 😊

Пишите к посту коммент, кто же вы, нам интересно познакомиться👇
Итак, через 7 минут мы стартуем наш первый вебинар: «Введение в LightAutoML» с Александром Рыжковым!

Ждем вас в 19.00 по ссылке
#домашка
Всем привет!
Как и говорил вчера - у нас открыта домашка для желающих попрактиковаться. Начать участие в соревновании можно по ссылке: https://www.kaggle.com/t/7e9b43b6978b4c18a58c6b60a2da2ed8
Также для соревнования уже подготовлено несколько бейзлайнов:
1) Простые: все нули, среднее по трейну, медиана по трейну
2) Стартер на LightAutoML (скор 3021.75)- https://www.kaggle.com/alexryzhkov/lightautoml-starter-for-hw1
3) Baseline 2 на LightAutoML (скор 1561.11) - код в кернеле пока что скрыт
4) Сильный baseline на LightAutoML (скор 1398.89) - код в кернеле пока что скрыт

Если вдруг при решении задачи возникают вопросы - не стесняйтесь их задавать 😎
#release_notes
В версии 0.2.13:
- Добавлена поддержка регрессии для интерпретации NLP моделей на основе LIME
Коллеги, всем привет!
Расскажите плз, кто начал решать домашку и кто планирует ее делать - все ли в задаче понятно? Нужны ли какие-то дополнительные комментарии по ней или по использованию фреймворка?
Ссылка на отдельный чат для обсуждения домашки с предсказанием цены машины: https://t.me/joinchat/sp8P7sdAqaU0YmRi
Нужны ли дополнительные семинары по ML теории? Если да, то отпишите в комментах по какой теме.
Anonymous Poll
83%
Да, нужны
17%
Нет, не нужны
Судя по опросу, у нас побеждает вариант ответа «Да, нужны». Попробуем подобрать для такого семинара подходящий слот.
Список тем для обсуждения (буду его тут постепенно обновлять):
1) Ансамбли - блендинги, стекинги и т.п.
2) Особенности метрик (f1, rocauc и др.)
3) feature engineering