#правила
Давайте постараемся вести данный канал (и связанную с ним группу) следующим образом:
- В данном канале будут появляться важные объявления и анонсы, а также ответы на основные вопросы
- Задавать вопросы можно в связанной группе (она доступна по кнопке "Комментировать" под данным сообщением или по ссылке https://t.me/joinchat/WQDt8U7hZGJlMTgy)
Давайте постараемся вести данный канал (и связанную с ним группу) следующим образом:
- В данном канале будут появляться важные объявления и анонсы, а также ответы на основные вопросы
- Задавать вопросы можно в связанной группе (она доступна по кнопке "Комментировать" под данным сообщением или по ссылке https://t.me/joinchat/WQDt8U7hZGJlMTgy)
LightAutoML framework pinned «#правила Давайте постараемся вести данный канал (и связанную с ним группу) следующим образом: - В данном канале будут появляться важные объявления и анонсы, а также ответы на основные вопросы - Задавать вопросы можно в связанной группе (она доступна по кнопке…»
#примеры #Kaggle
Многие видели кернел на Kaggle, где LightAutoML в режиме blackbox сражается в соревновании TPS 2021 с моделями, построенными вручную (https://www.kaggle.com/alexryzhkov/n3-tps-april-21-lightautoml-starter).
Сейчас мы решили пойти дальше - взять наше whitebox решение и навязать борьбу хваленым градиентным бустингам. Пока что у нас получилось добиться сравнимого с blackbox алгоритмами качества, посмотрим что будет дальше. Мониторить ситуацию можно здесь: https://www.kaggle.com/alexryzhkov/lightautoml-interpretable-model-autowoe
Многие видели кернел на Kaggle, где LightAutoML в режиме blackbox сражается в соревновании TPS 2021 с моделями, построенными вручную (https://www.kaggle.com/alexryzhkov/n3-tps-april-21-lightautoml-starter).
Сейчас мы решили пойти дальше - взять наше whitebox решение и навязать борьбу хваленым градиентным бустингам. Пока что у нас получилось добиться сравнимого с blackbox алгоритмами качества, посмотрим что будет дальше. Мониторить ситуацию можно здесь: https://www.kaggle.com/alexryzhkov/lightautoml-interpretable-model-autowoe
#инфографика
Друзья-товарищи, я хотел бы сказать вам большое спасибо за то, что вы с нами и помогаете нам развиваться. Наше текущее состояние по числу скачиваний выглядит вот таким образом. Последние несколько дней прямо пушка 🤩🤩🤩
Друзья-товарищи, я хотел бы сказать вам большое спасибо за то, что вы с нами и помогаете нам развиваться. Наше текущее состояние по числу скачиваний выглядит вот таким образом. Последние несколько дней прямо пушка 🤩🤩🤩
#инфографика
И что еще более забавно - теперь включился в работу питон 3.6, пытающийся догнать самый распространенный 3.7
И что еще более забавно - теперь включился в работу питон 3.6, пытающийся догнать самый распространенный 3.7
#инфографика
И конечно же большинство из нас линуксоиды :)
И конечно же большинство из нас линуксоиды :)
#оффтоп
Для тех кто устал искать в кернеле на Kaggle версию с лучшим скором посвящается: мини-тул для сбора информации о кернеле https://github.com/alexmryzhkov/kaggle-kernels-helper
Пример вывода в аттаче, пример использования в Jupyter ноутбуке в репозитории.
P.S. Пока что работает только с открытыми кернелами.
Для тех кто устал искать в кернеле на Kaggle версию с лучшим скором посвящается: мини-тул для сбора информации о кернеле https://github.com/alexmryzhkov/kaggle-kernels-helper
Пример вывода в аттаче, пример использования в Jupyter ноутбуке в репозитории.
P.S. Пока что работает только с открытыми кернелами.
#ответы_на_вопросы
Вопрос: можно ли получить все предсказания с последнего слоя перед блендером?**
Ответ: да, можно. Для любой задачи чтобы возвращать предсказания всех алгоритмов с последнего слоя нужно на тренировке вписать вот такую историю:
где всего 2 алгоритма взяты для примера, параметр
Для того, чтобы подобные предсказания получить на тесте, нужно параметр
Вопрос: можно ли получить все предсказания с последнего слоя перед блендером?**
Ответ: да, можно. Для любой задачи чтобы возвращать предсказания всех алгоритмов с последнего слоя нужно на тренировке вписать вот такую историю:
general_params = {
'use_algos': [['linear_l2', 'lgb']],
'return_all_predictions': True,
'weighted_blender_max_nonzero_coef': 0.0
}
,где всего 2 алгоритма взяты для примера, параметр
return_all_predictions:
True означает, что блендер учить нужно но пользователь хочет получить итоговые OutOfFold предсказания в формате всех OutOfFold предсказаний с последнего слоя перед блендером. В задаче бинарной классификации и регрессии это будет выглядеть как матрица с количеством строк, равным числу объектов в трейне, и количеством столбцов, равных количеству алгоритмов на последнем слое перед блендром. Для задачи мультиклассовой классификации на N классов количество столбцов увеличится кратно - первые N столбцов будут относиться к первому алгоритму, вторые N ко второму и так далее.Для того, чтобы подобные предсказания получить на тесте, нужно параметр
return_all_predictions
установить в значение True#теория #трюки
В задачах машинного обучения часто мы наблюдаем картину насыщения модели данными: при 80-90% используемых данных из тренировочного датасета модель выходит на плато качества и дальше не растет.
Однако встречаются кейсы (и они не являются супер редким исключением из правил), когда качество модели все продолжает и продолжает расти по мере наращивания выборки, на которой модель учится, и даже при 100% насыщения не наступает. Но размеченных данных больше нет и остались только неразмеченные - в данной ситуации может помочь так называемая техника псевдолейблинга (pseudolabelling). О том, как с ней работать и какие существуют важные правила, которые стоит соблюдать для достижения результата, можно прочитать в моем посте на форуме Kaggle: https://www.kaggle.com/c/tabular-playground-series-apr-2021/discussion/231738
В задачах машинного обучения часто мы наблюдаем картину насыщения модели данными: при 80-90% используемых данных из тренировочного датасета модель выходит на плато качества и дальше не растет.
Однако встречаются кейсы (и они не являются супер редким исключением из правил), когда качество модели все продолжает и продолжает расти по мере наращивания выборки, на которой модель учится, и даже при 100% насыщения не наступает. Но размеченных данных больше нет и остались только неразмеченные - в данной ситуации может помочь так называемая техника псевдолейблинга (pseudolabelling). О том, как с ней работать и какие существуют важные правила, которые стоит соблюдать для достижения результата, можно прочитать в моем посте на форуме Kaggle: https://www.kaggle.com/c/tabular-playground-series-apr-2021/discussion/231738
Kaggle
Tabular Playground Series - Apr 2021
Synthanic - You're going to need a bigger boat
#release_notes
В версии 0.2.11:
- добавлена функциональность подсчета важности признаков из коробки для TabularAutoML и TabularUtilizedAutoML. Примеры использования можно увидеть в Tutorial_2.
- добавлена возможность возвращать предсказания отдельных моделей с последнего слоя перед блендером как на этапе трейна модели (для OutOfFold предсказания), так и для этапа предсказаний. Подробности использования - в посте выше из категории #ответы_на_вопросы
- исправлены баги, найденные в процессе тестирования кастомных метрик, заданию своих конфигов для TabularUtilizedAutoML и превращению его тем самым в мультистарт и др.
В версии 0.2.11:
- добавлена функциональность подсчета важности признаков из коробки для TabularAutoML и TabularUtilizedAutoML. Примеры использования можно увидеть в Tutorial_2.
- добавлена возможность возвращать предсказания отдельных моделей с последнего слоя перед блендером как на этапе трейна модели (для OutOfFold предсказания), так и для этапа предсказаний. Подробности использования - в посте выше из категории #ответы_на_вопросы
- исправлены баги, найденные в процессе тестирования кастомных метрик, заданию своих конфигов для TabularUtilizedAutoML и превращению его тем самым в мультистарт и др.
#release_notes
В версии 0.2.12:
- Добавлена интерпретацию NLP моделей на основе LIME.
- Появилась расширенная поддержка HF моделей для обучения и извлечения эмбеддингов.
- Исправлен ряд багов, связанных с передачей языка в некоторые алгоритмы извлечения эмбеддингов и токенайзеров.
В версии 0.2.12:
- Добавлена интерпретацию NLP моделей на основе LIME.
- Появилась расширенная поддержка HF моделей для обучения и извлечения эмбеддингов.
- Исправлен ряд багов, связанных с передачей языка в некоторые алгоритмы извлечения эмбеддингов и токенайзеров.