#timeseries #ensembling #todo #hetboost
Что мне тут нравится, ансамблируются не просто МЛ-модельки, а еще и статмодельки.
И вот здесь автора доклада рассматривает идею, которая и меня с недавних пор преследует: гетерогенный бустинг.
У меня планируется исследование/сравнение продвинутых методов ансамблирования, и даже есть идея своего метода.
Это будет микс гетерогенного бустинга, ансамблевого отбора и стэкинга.
https://www.youtube.com/watch?v=xnF9QajUzv0
Что мне тут нравится, ансамблируются не просто МЛ-модельки, а еще и статмодельки.
И вот здесь автора доклада рассматривает идею, которая и меня с недавних пор преследует: гетерогенный бустинг.
У меня планируется исследование/сравнение продвинутых методов ансамблирования, и даже есть идея своего метода.
Это будет микс гетерогенного бустинга, ансамблевого отбора и стэкинга.
https://www.youtube.com/watch?v=xnF9QajUzv0
YouTube
Boosting Time Series Accuracy: The Power of Ensemble Methods - Robert Haase (Paretos)
Boosting Time Series Accuracy: The Power of Ensemble Methods - Robert Haase (Paretos)
This talk explores the practical application of ensemble methods in time series analysis, based on Robert’s extensive experience at Pareto. It covers various ensembling…
This talk explores the practical application of ensemble methods in time series analysis, based on Robert’s extensive experience at Pareto. It covers various ensembling…
🔥1
#timeseries #ensembling #hetboost #pmdarima #todo
Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.
Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.
В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.
В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.
Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).
Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.
На этот год планирую сравнительное исследование )
Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.
Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.
Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.
Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.
В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.
В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.
Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).
Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.
На этот год планирую сравнительное исследование )
Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.
Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.
Telegram
Aspiring Data Science
#ensembling #hpo #hpt #autosklearn
Вот какой интересный метод ансамблирования опробовали авторы оптимизатора auto-sklearn:
"Two important problems in AutoML are that (1) no single machine learning method performs best on all datasets and (2) some machine…
Вот какой интересный метод ансамблирования опробовали авторы оптимизатора auto-sklearn:
"Two important problems in AutoML are that (1) no single machine learning method performs best on all datasets and (2) some machine…
🔥4👍1