#timeseries #dsp #fourier #fft #psd
"After we have transformed a signal to the frequency-domain, we can extract features from each of these transformed signals and use these features as input in standard classifiers like Random Forest, Logistic Regression, Gradient Boosting or Support Vector Machines.
Which features can we extract from these transformations? A good first step is the value of the frequencies at which oscillations occur and the corresponding amplitudes. In other words; the x and y-position of the peaks in the frequency spectrum."
https://ataspinar.com/2018/04/04/machine-learning-with-signal-processing-techniques/
"After we have transformed a signal to the frequency-domain, we can extract features from each of these transformed signals and use these features as input in standard classifiers like Random Forest, Logistic Regression, Gradient Boosting or Support Vector Machines.
Which features can we extract from these transformations? A good first step is the value of the frequencies at which oscillations occur and the corresponding amplitudes. In other words; the x and y-position of the peaks in the frequency spectrum."
https://ataspinar.com/2018/04/04/machine-learning-with-signal-processing-techniques/
#timeseries #wavelets #scaleogram #dwt #cwt
В комментах сравнительная таблица точностей разных вейвлетов на нескольких ML-задачах.
https://ataspinar.com/2018/12/21/a-guide-for-using-the-wavelet-transform-in-machine-learning/
В комментах сравнительная таблица точностей разных вейвлетов на нескольких ML-задачах.
https://ataspinar.com/2018/12/21/a-guide-for-using-the-wavelet-transform-in-machine-learning/
#timeseries #anomalydetection #nabscore #autoencoders
Странноватое сравнение, либо не так что-то я понял. Но я не верю, что детектор ЛИШЬ на текущих точках (пусть и тысячи сенсоров) может отработать на порядок лучше рекуррентного, который располагает ДОПОЛНИТЕЛЬНО окном данных. И непонятно, почему наличие окна должно как-то снижать оперативность детекции. Закрадывается подозрение, что ряд нарубили неперекрывающимися окнами вместо перекрывающихся, и это искусственно уменьшило скорость реакции и, соответственно, nab score.
https://www.youtube.com/watch?v=B6r20LBrvYw
Странноватое сравнение, либо не так что-то я понял. Но я не верю, что детектор ЛИШЬ на текущих точках (пусть и тысячи сенсоров) может отработать на порядок лучше рекуррентного, который располагает ДОПОЛНИТЕЛЬНО окном данных. И непонятно, почему наличие окна должно как-то снижать оперативность детекции. Закрадывается подозрение, что ряд нарубили неперекрывающимися окнами вместо перекрывающихся, и это искусственно уменьшило скорость реакции и, соответственно, nab score.
https://www.youtube.com/watch?v=B6r20LBrvYw
YouTube
Обнаружение аномалий во временных рядах / Павел Филонов (Лаборатория Касперского)
Приглашаем на конференцию Saint HighLoad++ 2025, которая пройдет 23 и 24 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ 2017
Тезисы:
http://www.highload.ru/2017/abstracts/2938.html…
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ 2017
Тезисы:
http://www.highload.ru/2017/abstracts/2938.html…
#timeseries #vorontsov #holt #winters #trigg #leach #adaptiveselection #lawr
https://www.youtube.com/watch?v=Rmh6b96u6UU
https://www.youtube.com/watch?v=Rmh6b96u6UU
YouTube
Машинное обучение. Прогнозирование временных рядов. К.В. Воронцов, Школа анализа данных, Яндекс.
Прогнозирование временных рядов – это специальный случай задачи регрессии, в которой объекты выборки линейно упорядочены по времени. Обучающая выборка находится в прошлом, тестовая – в будущем. В простых задачах из области эконометрики поведение временного…
👍1
#conformal #mapie #crepes #timeseries
Конформализированная квантильная регрессия - как тебе такое, Илон Маск?!
Для временных рядов важный вопрос заключается в выборе калибрационного множества.
https://www.youtube.com/watch?v=--WcrDRtrYk
Конформализированная квантильная регрессия - как тебе такое, Илон Маск?!
Для временных рядов важный вопрос заключается в выборе калибрационного множества.
https://www.youtube.com/watch?v=--WcrDRtrYk
YouTube
Inge van den Ende-Leveraging conformal prediction for calibrated probabilistic time series forecasts
With the increasing amount of volatile renewable energy sources, it becomes more and more challenging to keep the electrical grid in balance. Probabilistic energy price forecasts can help to create this balance. But how do we obtain well-calibrated forecasts?…
✍2
#masters #scaling #preprocessing #robustscaler #timeseries
Перечитываю Мастерса, у него очень интересный подход к нормироваке и шкалированию временных рядов. Вместо общепринятых среднего и скв. отклонения в формуле (val-mean)/std, он использует медиану и межквартильное расстояние iqr. Идея очень резонная в плане устойчивости к выбросам. Я вот что подумал, в sklearn, конечно, есть RobustScaler, который делает вроде бы то же самое, но фишка в том, что Мастерс нормирующие показатели вычисляет не по всему train set, как RobustScaler, а по скользящему окну из последних T наблюдений. Надо бы попробовать модифицировать RobustScaler с учётом этой идеи.
Перечитываю Мастерса, у него очень интересный подход к нормироваке и шкалированию временных рядов. Вместо общепринятых среднего и скв. отклонения в формуле (val-mean)/std, он использует медиану и межквартильное расстояние iqr. Идея очень резонная в плане устойчивости к выбросам. Я вот что подумал, в sklearn, конечно, есть RobustScaler, который делает вроде бы то же самое, но фишка в том, что Мастерс нормирующие показатели вычисляет не по всему train set, как RobustScaler, а по скользящему окну из последних T наблюдений. Надо бы попробовать модифицировать RobustScaler с учётом этой идеи.
👍1
#timeseries
Презентация немного неряшлива, но темы подняты интересные. Бэйзлайн во временных рядах - наше всё.
https://www.youtube.com/watch?v=QPIimJphFu8
Презентация немного неряшлива, но темы подняты интересные. Бэйзлайн во временных рядах - наше всё.
https://www.youtube.com/watch?v=QPIimJphFu8
YouTube
Jonathan Bechtel - Forecasting With Classical and Machine Learning Methods | PyData NYC 2023
www.pydata.org
Traditional time series models such as ARIMA and exponential smoothing have typically been used to forecast time series data, but the use of machine learning methods have been able to set new benchmarks for accuracy in high profile forecasting…
Traditional time series models such as ARIMA and exponential smoothing have typically been used to forecast time series data, but the use of machine learning methods have been able to set new benchmarks for accuracy in high profile forecasting…
#sax #timeseries #shaplets
Интересная идея кодирования временного ряда алфавитом. Давнооо видел, сам не пробовал.
https://www.youtube.com/watch?v=2MdL1cm7HAI
Интересная идея кодирования временного ряда алфавитом. Давнооо видел, сам не пробовал.
https://www.youtube.com/watch?v=2MdL1cm7HAI
YouTube
Learning from Electronic Health Records: from temporal abstractions to time series interpretability
Panagiotis Papapetrou:
Learning from Electronic Health Records: from temporal abstractions to time series interpretability
Machine Learning Coffee Seminar, 25th February 2019.
Machine Learning Coffee Seminar: https://www.hiit.fi/news-and-events/machine…
Learning from Electronic Health Records: from temporal abstractions to time series interpretability
Machine Learning Coffee Seminar, 25th February 2019.
Machine Learning Coffee Seminar: https://www.hiit.fi/news-and-events/machine…
Forwarded from asisakov
Дождались
Наконец-то выложили видео с моим выступлением на датафесте!
Все прошло очень круто, тем более в этот день конференция проходила в гостях у Яндекса и по классике все было очень приятно.
Единственная проблема была вызвана ощущуением конкуренции с треком по LLMкам, который проходил параллельно нашим активностям, но мои переживания были напрасны. Ребята настолько задолбались слушать про RAGи, что как раз на мое выступление подошло достаточно большое количество людей, которые при этом были сильно вовлечены. Это было очень приятно, что все-таки временные ряды важны не только узкому числу людей. После выступления также небольшое время мы с ребятами общались про нюансы подготовки признаков и применения моделей.
С этого момента прошло достаточно много времени, поэтому я решил, что будет полезно с этим ознакомиться и в печатном виде, и поэтому мы с коллегами готовим статью на Хабре. Как только опубликуем, также поделюсь ссылкой.
Кстати, вот ссылка на видео: https://www.youtube.com/watch?v=lL9Dimm5UuE
#life #ml #timeseries
Наконец-то выложили видео с моим выступлением на датафесте!
Все прошло очень круто, тем более в этот день конференция проходила в гостях у Яндекса и по классике все было очень приятно.
Единственная проблема была вызвана ощущуением конкуренции с треком по LLMкам, который проходил параллельно нашим активностям, но мои переживания были напрасны. Ребята настолько задолбались слушать про RAGи, что как раз на мое выступление подошло достаточно большое количество людей, которые при этом были сильно вовлечены. Это было очень приятно, что все-таки временные ряды важны не только узкому числу людей. После выступления также небольшое время мы с ребятами общались про нюансы подготовки признаков и применения моделей.
С этого момента прошло достаточно много времени, поэтому я решил, что будет полезно с этим ознакомиться и в печатном виде, и поэтому мы с коллегами готовим статью на Хабре. Как только опубликуем, также поделюсь ссылкой.
Кстати, вот ссылка на видео: https://www.youtube.com/watch?v=lL9Dimm5UuE
#life #ml #timeseries
YouTube
Александр Исаков | Краткосрочное прогнозирование заказов для создания курьерских слотов на лавках
Спикер: Александр Исаков, аналитик-разработчик, Яндекс Лавка
Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции Time Series: https://ods.ai/tracks/df24-time-series
______
Наши соц.сети:
Telegram: ht…
Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции Time Series: https://ods.ai/tracks/df24-time-series
______
Наши соц.сети:
Telegram: ht…
👍3✍1🔥1
#timeseries #transferlearning
Что интересно - использование BERT-а, предобученного на текстовом корпусе, улучшало сходимость на временнных рядах. Как такая мульти-модальность работает вообще?!
https://youtu.be/fwkE417Bg9g?si=Z0DYpwsSijs5EmqH
Что интересно - использование BERT-а, предобученного на текстовом корпусе, улучшало сходимость на временнных рядах. Как такая мульти-модальность работает вообще?!
https://youtu.be/fwkE417Bg9g?si=Z0DYpwsSijs5EmqH
YouTube
Ксения Кувшинова | Forecast and chill: Zero-Shot Foundation Models for Time Series
Спикер: Ксения Кувшинова, Sber AI Lab
Тема доклада: Foundation models - это модели, которые предобучены на большом количестве данных и могут быть применены к различным задачам как с дообучением, так и в zero-shot режиме.
Data Fest 2024: https://ods.ai/…
Тема доклада: Foundation models - это модели, которые предобучены на большом количестве данных и могут быть применены к различным задачам как с дообучением, так и в zero-shot режиме.
Data Fest 2024: https://ods.ai/…
❤1
#dummy #baselines #sklearn #timeseries
Чёт я задумался, что Dummy* модели в sklearn совсем не предназначены для временных рядов. Сел сочинять Feature Request, посмотрим, если не зарубят, даже сам над ним поработаю.
И, кстати сказать, неудобно, что на практике всегда перебираешь все доступные стратегии, чтобы создать хоть какой-то разумный бэйз.
У меня пока такие идеи:
1) дать возможность указывать окно, как в pandas при вычислении rolling/expanding. Вводим для этого параметр scope:str={"rolling","expanding","all"}. Если scope!="all", стратегия применяется не ко всему датасету, а к окошку. параметры **kwargs передаются напрямую в метод scope ряда pandas.
Для полной поддержки взвешенных окон придётся добавить **extra_kwargs:
2) добавить strategy="lag" (только для scope="rolling")
3) добавить strategy="best", которая будет внутри перебирать все остальные стратегии, чтобы выдать пользователю самую сильную базу. Также придётся добавить параметр scoring, как в cross_validate, чтоб можно было сравнивать стратегии.
4) добавить strategy="ewm" на базе того же пандас. параметры **kwargs передаются напрямую в метод ewm pandas.
5) добавить strategy="apply" (для scope!="all") для применения кастомных аггрегирующих функций. Будет транслироваться в
6) в случае задания окна, хотелось бы добавить классу немного ума. пусть бы сам искал, какое окно даёт наилучший скоринг? только вот как это сделать, если индексом служит время, слишком много же вариантов получается.
Ещё придётся думать о сортировке y (если это ряд pandas с datetimelike-индексом) и заполнении пропусков (у окон есть параметр min_period, так что пропуски вполне могут появиться). Думаю заполнять пропуски либо backfill-ом, либо стратегией, применённой ко всему датасету. Нужен новый параметр fill_na:str={"backfill","strategy"}, видимо.
Есть ещё предложения по стратегиям?
В общем, запостил FR: https://github.com/scikit-learn/scikit-learn/issues/29813
Чёт я задумался, что Dummy* модели в sklearn совсем не предназначены для временных рядов. Сел сочинять Feature Request, посмотрим, если не зарубят, даже сам над ним поработаю.
И, кстати сказать, неудобно, что на практике всегда перебираешь все доступные стратегии, чтобы создать хоть какой-то разумный бэйз.
У меня пока такие идеи:
1) дать возможность указывать окно, как в pandas при вычислении rolling/expanding. Вводим для этого параметр scope:str={"rolling","expanding","all"}. Если scope!="all", стратегия применяется не ко всему датасету, а к окошку. параметры **kwargs передаются напрямую в метод scope ряда pandas.
Для полной поддержки взвешенных окон придётся добавить **extra_kwargs:
kwargs=dict(window=5, win_type="gaussian")
extra_kwargs=dict(std=0.1)
# Supplementary Scipy arguments passed in the aggregation function
y.rolling(**kwargs).mean(**extra_kwargs)
2) добавить strategy="lag" (только для scope="rolling")
3) добавить strategy="best", которая будет внутри перебирать все остальные стратегии, чтобы выдать пользователю самую сильную базу. Также придётся добавить параметр scoring, как в cross_validate, чтоб можно было сравнивать стратегии.
4) добавить strategy="ewm" на базе того же пандас. параметры **kwargs передаются напрямую в метод ewm pandas.
5) добавить strategy="apply" (для scope!="all") для применения кастомных аггрегирующих функций. Будет транслироваться в
def mad(x):
return np.fabs(x - x.mean()).mean()
kwargs=dict(window=4)
extra_kwargs=dict(func=mad, raw=True)
y.rolling(**kwargs).apply(**extra_kwargs)
6) в случае задания окна, хотелось бы добавить классу немного ума. пусть бы сам искал, какое окно даёт наилучший скоринг? только вот как это сделать, если индексом служит время, слишком много же вариантов получается.
Ещё придётся думать о сортировке y (если это ряд pandas с datetimelike-индексом) и заполнении пропусков (у окон есть параметр min_period, так что пропуски вполне могут появиться). Думаю заполнять пропуски либо backfill-ом, либо стратегией, применённой ко всему датасету. Нужен новый параметр fill_na:str={"backfill","strategy"}, видимо.
Есть ещё предложения по стратегиям?
В общем, запостил FR: https://github.com/scikit-learn/scikit-learn/issues/29813
❤2🏆1
#finance #trading #timeseries #lstm #rv
Интересная мысль, что для рекуррентных сетей input dimension начинает играть роль гиперпараметра (причём важного).
https://www.youtube.com/watch?v=lc8qKP8yH3E
Интересная мысль, что для рекуррентных сетей input dimension начинает играть роль гиперпараметра (причём важного).
https://www.youtube.com/watch?v=lc8qKP8yH3E
YouTube
Герман Родиков | Predicting specific time series by blending deep learning techniques
Спикер: Герман Родиков, University of Bologna
Тема доклада: Predicting specific time series by blending deep learning techniques with domain-specific knowledge
Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в…
Тема доклада: Predicting specific time series by blending deep learning techniques with domain-specific knowledge
Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в…
👍2
#timeseries #ensembling #todo #hetboost
Что мне тут нравится, ансамблируются не просто МЛ-модельки, а еще и статмодельки.
И вот здесь автора доклада рассматривает идею, которая и меня с недавних пор преследует: гетерогенный бустинг.
У меня планируется исследование/сравнение продвинутых методов ансамблирования, и даже есть идея своего метода.
Это будет микс гетерогенного бустинга, ансамблевого отбора и стэкинга.
https://www.youtube.com/watch?v=xnF9QajUzv0
Что мне тут нравится, ансамблируются не просто МЛ-модельки, а еще и статмодельки.
И вот здесь автора доклада рассматривает идею, которая и меня с недавних пор преследует: гетерогенный бустинг.
У меня планируется исследование/сравнение продвинутых методов ансамблирования, и даже есть идея своего метода.
Это будет микс гетерогенного бустинга, ансамблевого отбора и стэкинга.
https://www.youtube.com/watch?v=xnF9QajUzv0
YouTube
Boosting Time Series Accuracy: The Power of Ensemble Methods - Robert Haase (Paretos)
Boosting Time Series Accuracy: The Power of Ensemble Methods - Robert Haase (Paretos)
This talk explores the practical application of ensemble methods in time series analysis, based on Robert’s extensive experience at Pareto. It covers various ensembling…
This talk explores the practical application of ensemble methods in time series analysis, based on Robert’s extensive experience at Pareto. It covers various ensembling…
🔥1
#timeseries #ensembling #hetboost #pmdarima #todo
Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.
Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.
В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.
В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.
Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).
Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.
На этот год планирую сравнительное исследование )
Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.
Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.
Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.
Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.
В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.
В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.
Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).
Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.
На этот год планирую сравнительное исследование )
Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.
Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.
Telegram
Aspiring Data Science
#ensembling #hpo #hpt #autosklearn
Вот какой интересный метод ансамблирования опробовали авторы оптимизатора auto-sklearn:
"Two important problems in AutoML are that (1) no single machine learning method performs best on all datasets and (2) some machine…
Вот какой интересный метод ансамблирования опробовали авторы оптимизатора auto-sklearn:
"Two important problems in AutoML are that (1) no single machine learning method performs best on all datasets and (2) some machine…
🔥4👍1
#timeseries
Неглубокий, но качественный доклад. Из интересного: лаги для комбинаций категорией, кастомные лоссы для бустинга. Оптуна и Шап.
https://www.youtube.com/watch?v=MF3ZNET89F0
Неглубокий, но качественный доклад. Из интересного: лаги для комбинаций категорией, кастомные лоссы для бустинга. Оптуна и Шап.
https://www.youtube.com/watch?v=MF3ZNET89F0
YouTube
Optimizing Ad Conversions with DS / Yael Kiselman (DigitalTurbine)
DigitalTurbine is a leading brand in the mobile advertising industry.
In this talk Yael Kiselman (DS at DigitalTurbine) would share a few tips and tricks optimizing mobile app recommendation on the DT On-Device product.
Yael would share:
- The use of XGBoost…
In this talk Yael Kiselman (DS at DigitalTurbine) would share a few tips and tricks optimizing mobile app recommendation on the DT On-Device product.
Yael would share:
- The use of XGBoost…
#healthcare #medicine #timeseries #wavelets
Интересно, как CWT хорошо зашло в качестве дискриминирующего признака.
https://www.youtube.com/watch?v=xzKlTcUhsh8
Интересно, как CWT хорошо зашло в качестве дискриминирующего признака.
https://www.youtube.com/watch?v=xzKlTcUhsh8
YouTube
Tomasz Melcer: Extracting repetitive features from biomedical time series: a case study
Contributed Talk at the PL in ML: Polish View on Machine Learning 2018 Conference (plinml.mimuw.edu.pl).
Abstract:
Application of machine learning methods to biomedical signals often requires extraction of features occurring in a fairly repetitive way.
This…
Abstract:
Application of machine learning methods to biomedical signals often requires extraction of features occurring in a fairly repetitive way.
This…