LightAutoML framework

Channel created

13:37

Channel photo updated

13:45

LightAutoML framework

This media is not supported in your browser

VIEW IN TELEGRAM

742 views13:47

LightAutoML framework

#установка


pip install -U lightautoml

805 viewsAlex Ryzhkov, 14:11

LightAutoML framework

#правила
Давайте постараемся вести данный канал (и связанную с ним группу) следующим образом:
- В данном канале будут появляться важные объявления и анонсы, а также ответы на основные вопросы
- Задавать вопросы можно в связанной группе (она доступна по кнопке "Комментировать" под данным сообщением или по ссылке https://t.me/joinchat/WQDt8U7hZGJlMTgy)

873 viewsAlex Ryzhkov, edited 14:23

LightAutoML framework

LightAutoML framework pinned «#правила Давайте постараемся вести данный канал (и связанную с ним группу) следующим образом: - В данном канале будут появляться важные объявления и анонсы, а также ответы на основные вопросы - Задавать вопросы можно в связанной группе (она доступна по кнопке…»

14:23

LightAutoML framework

#примеры #Kaggle
Многие видели кернел на Kaggle, где LightAutoML в режиме blackbox сражается в соревновании TPS 2021 с моделями, построенными вручную (https://www.kaggle.com/alexryzhkov/n3-tps-april-21-lightautoml-starter).

Сейчас мы решили пойти дальше - взять наше whitebox решение и навязать борьбу хваленым градиентным бустингам. Пока что у нас получилось добиться сравнимого с blackbox алгоритмами качества, посмотрим что будет дальше. Мониторить ситуацию можно здесь: https://www.kaggle.com/alexryzhkov/lightautoml-interpretable-model-autowoe

870 viewsAlex Ryzhkov, edited 15:22

LightAutoML framework

#инфографика
Друзья-товарищи, я хотел бы сказать вам большое спасибо за то, что вы с нами и помогаете нам развиваться. Наше текущее состояние по числу скачиваний выглядит вот таким образом. Последние несколько дней прямо пушка 🤩🤩🤩

707 viewsAlex Ryzhkov, 13:46

LightAutoML framework

#инфографика
И что еще более забавно - теперь включился в работу питон 3.6, пытающийся догнать самый распространенный 3.7

696 viewsAlex Ryzhkov, 13:47

LightAutoML framework

#инфографика
И конечно же большинство из нас линуксоиды :)

694 viewsAlex Ryzhkov, 13:48

LightAutoML framework

#оффтоп
Для тех кто устал искать в кернеле на Kaggle версию с лучшим скором посвящается: мини-тул для сбора информации о кернеле https://github.com/alexmryzhkov/kaggle-kernels-helper

Пример вывода в аттаче, пример использования в Jupyter ноутбуке в репозитории.

P.S. Пока что работает только с открытыми кернелами.

744 viewsAlex Ryzhkov, 17:48

LightAutoML framework

#ответы_на_вопросы
Вопрос: можно ли получить все предсказания с последнего слоя перед блендером?**
Ответ: да, можно. Для любой задачи чтобы возвращать предсказания всех алгоритмов с последнего слоя нужно на тренировке вписать вот такую историю:

general_params = {
    'use_algos': [['linear_l2', 'lgb']],
    'return_all_predictions': True,
    'weighted_blender_max_nonzero_coef': 0.0
}

,
где всего 2 алгоритма взяты для примера, параметр return_all_predictions:True означает, что блендер учить нужно но пользователь хочет получить итоговые OutOfFold предсказания в формате всех OutOfFold предсказаний с последнего слоя перед блендером. В задаче бинарной классификации и регрессии это будет выглядеть как матрица с количеством строк, равным числу объектов в трейне, и количеством столбцов, равных количеству алгоритмов на последнем слое перед блендром. Для задачи мультиклассовой классификации на N классов количество столбцов увеличится кратно - первые N столбцов будут относиться к первому алгоритму, вторые N ко второму и так далее.

Для того, чтобы подобные предсказания получить на тесте, нужно параметр return_all_predictions установить в значение True

759 viewsAlex Ryzhkov, 20:55

LightAutoML framework

#теория #трюки
В задачах машинного обучения часто мы наблюдаем картину насыщения модели данными: при 80-90% используемых данных из тренировочного датасета модель выходит на плато качества и дальше не растет.
Однако встречаются кейсы (и они не являются супер редким исключением из правил), когда качество модели все продолжает и продолжает расти по мере наращивания выборки, на которой модель учится, и даже при 100% насыщения не наступает. Но размеченных данных больше нет и остались только неразмеченные - в данной ситуации может помочь так называемая техника псевдолейблинга (pseudolabelling). О том, как с ней работать и какие существуют важные правила, которые стоит соблюдать для достижения результата, можно прочитать в моем посте на форуме Kaggle: https://www.kaggle.com/c/tabular-playground-series-apr-2021/discussion/231738

Kaggle

Tabular Playground Series - Apr 2021

Synthanic - You're going to need a bigger boat

1.03K viewsAlex Ryzhkov, 21:09

LightAutoML framework

#release_notes
В версии 0.2.11:
- добавлена функциональность подсчета важности признаков из коробки для TabularAutoML и TabularUtilizedAutoML. Примеры использования можно увидеть в Tutorial_2.
- добавлена возможность возвращать предсказания отдельных моделей с последнего слоя перед блендером как на этапе трейна модели (для OutOfFold предсказания), так и для этапа предсказаний. Подробности использования - в посте выше из категории #ответы_на_вопросы
- исправлены баги, найденные в процессе тестирования кастомных метрик, заданию своих конфигов для TabularUtilizedAutoML и превращению его тем самым в мультистарт и др.

911 viewsAlex Ryzhkov, 21:16

LightAutoML framework

#release_notes
В версии 0.2.12:
- Добавлена интерпретацию NLP моделей на основе LIME.
- Появилась расширенная поддержка HF моделей для обучения и извлечения эмбеддингов.
- Исправлен ряд багов, связанных с передачей языка в некоторые алгоритмы извлечения эмбеддингов и токенайзеров.

1.03K viewsAlex Ryzhkov, 21:20

About

Blog

Apps

Platform