Aspiring Data Science

#timeseries #anomalydetection #nabscore #autoencoders

Странноватое сравнение, либо не так что-то я понял. Но я не верю, что детектор ЛИШЬ на текущих точках (пусть и тысячи сенсоров) может отработать на порядок лучше рекуррентного, который располагает ДОПОЛНИТЕЛЬНО окном данных. И непонятно, почему наличие окна должно как-то снижать оперативность детекции. Закрадывается подозрение, что ряд нарубили неперекрывающимися окнами вместо перекрывающихся, и это искусственно уменьшило скорость реакции и, соответственно, nab score.

https://www.youtube.com/watch?v=B6r20LBrvYw

YouTube

Обнаружение аномалий во временных рядах / Павел Филонов (Лаборатория Касперского)

Приглашаем на конференцию HighLoad++ 2024, которая пройдет 2 и 3 декабря в Москве!
Программа, подробности и билеты по ссылке: https://clck.ru/3DD4yb
--------
HighLoad++ 2017

Тезисы:
http://www.highload.ru/2017/abstracts/2938.html

Повсюду нас окружают данные…

135 viewsAnatoly Alekseev, edited 13:36

Aspiring Data Science

#timeseries #vorontsov #holt #winters #trigg #leach #adaptiveselection #lawr

https://www.youtube.com/watch?v=Rmh6b96u6UU

YouTube

Машинное обучение. Прогнозирование временных рядов. К.В. Воронцов, Школа анализа данных, Яндекс.

Прогнозирование временных рядов – это специальный случай задачи регрессии, в которой объекты выборки линейно упорядочены по времени. Обучающая выборка находится в прошлом, тестовая – в будущем. В простых задачах из области эконометрики поведение временного…

107 viewsAnatoly Alekseev, edited 03:49

Aspiring Data Science

#conformal #mapie #crepes #timeseries

Конформализированная квантильная регрессия - как тебе такое, Илон Маск?!
Для временных рядов важный вопрос заключается в выборе калибрационного множества.

https://www.youtube.com/watch?v=--WcrDRtrYk

YouTube

Inge van den Ende-Leveraging conformal prediction for calibrated probabilistic time series forecasts

With the increasing amount of volatile renewable energy sources, it becomes more and more challenging to keep the electrical grid in balance. Probabilistic energy price forecasts can help to create this balance. But how do we obtain well-calibrated forecasts?…

187 viewsAnatoly Alekseev, edited 06:47

Aspiring Data Science

#masters #scaling #preprocessing #robustscaler #timeseries

Перечитываю Мастерса, у него очень интересный подход к нормироваке и шкалированию временных рядов. Вместо общепринятых среднего и скв. отклонения в формуле (val-mean)/std, он использует медиану и межквартильное расстояние iqr. Идея очень резонная в плане устойчивости к выбросам. Я вот что подумал, в sklearn, конечно, есть RobustScaler, который делает вроде бы то же самое, но фишка в том, что Мастерс нормирующие показатели вычисляет не по всему train set, как RobustScaler, а по скользящему окну из последних T наблюдений. Надо бы попробовать модифицировать RobustScaler с учётом этой идеи.

134 viewsAnatoly Alekseev, edited 11:38

Aspiring Data Science

#timeseries

Презентация немного неряшлива, но темы подняты интересные. Бэйзлайн во временных рядах - наше всё.

https://www.youtube.com/watch?v=QPIimJphFu8

YouTube

Jonathan Bechtel - Forecasting With Classical and Machine Learning Methods | PyData NYC 2023

www.pydata.org

Traditional time series models such as ARIMA and exponential smoothing have typically been used to forecast time series data, but the use of machine learning methods have been able to set new benchmarks for accuracy in high profile forecasting…

140 viewsAnatoly Alekseev, 08:51

Aspiring Data Science

#timeseries #anns

https://www.youtube.com/watch?v=svNwWSgz2NM

YouTube

Deep Learning for Time Series | Dimitry Larko | Kaggle Days

Kaggle Days China edition was held on October 19-20 at Damei Center, Beijing.

More than 400 data scientists and enthusiasts gathered to learn, make friends, and compete in a full-day offline competition.

Kaggle Days is produced by LogicAI and Kaggle.

About…

128 viewsAnatoly Alekseev, 04:07

Aspiring Data Science

#sax #timeseries #shaplets

Интересная идея кодирования временного ряда алфавитом. Давнооо видел, сам не пробовал.

https://www.youtube.com/watch?v=2MdL1cm7HAI

YouTube

Learning from Electronic Health Records: from temporal abstractions to time series interpretability

Panagiotis Papapetrou:
Learning from Electronic Health Records: from temporal abstractions to time series interpretability

Machine Learning Coffee Seminar, 25th February 2019.

Machine Learning Coffee Seminar: https://www.hiit.fi/news-and-events/machine…

121 viewsAnatoly Alekseev, edited 19:57

Aspiring Data Science

Forwarded from asisakov

Дождались

Наконец-то выложили видео с моим выступлением на датафесте!

Все прошло очень круто, тем более в этот день конференция проходила в гостях у Яндекса и по классике все было очень приятно.

Единственная проблема была вызвана ощущуением конкуренции с треком по LLMкам, который проходил параллельно нашим активностям, но мои переживания были напрасны. Ребята настолько задолбались слушать про RAGи, что как раз на мое выступление подошло достаточно большое количество людей, которые при этом были сильно вовлечены. Это было очень приятно, что все-таки временные ряды важны не только узкому числу людей. После выступления также небольшое время мы с ребятами общались про нюансы подготовки признаков и применения моделей.

С этого момента прошло достаточно много времени, поэтому я решил, что будет полезно с этим ознакомиться и в печатном виде, и поэтому мы с коллегами готовим статью на Хабре. Как только опубликуем, также поделюсь ссылкой.

Кстати, вот ссылка на видео: https://www.youtube.com/watch?v=lL9Dimm5UuE

#life #ml #timeseries

YouTube

Александр Исаков | Краткосрочное прогнозирование заказов для создания курьерских слотов на лавках

Спикер: Александр Исаков, аналитик-разработчик, Яндекс Лавка

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции Time Series: https://ods.ai/tracks/df24-time-series
______
Наши соц.сети:
Telegram: ht…

108 viewsAnatoly Alekseev, 18:18

Aspiring Data Science

#timeseries #transferlearning

Что интересно - использование BERT-а, предобученного на текстовом корпусе, улучшало сходимость на временнных рядах. Как такая мульти-модальность работает вообще?!

https://youtu.be/fwkE417Bg9g?si=Z0DYpwsSijs5EmqH

YouTube

Ксения Кувшинова | Forecast and chill: Zero-Shot Foundation Models for Time Series

Спикер: Ксения Кувшинова, Sber AI Lab

Тема доклада: Foundation models - это модели, которые предобучены на большом количестве данных и могут быть применены к различным задачам как с дообучением, так и в zero-shot режиме.

Data Fest 2024: https://ods.ai/…

97 viewsAnatoly Alekseev, edited 14:54

Aspiring Data Science

#timeseries #outliers

https://www.youtube.com/watch?v=trXeFyA5MwM

YouTube

Александр Греков | Прогноз и выделение аномалий в данных активности двустворчатых моллюсков

Спикер: Александр Греков, Институт природно-технических систем (Севастополь)

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции Time Series: https://ods.ai/tracks/df24-time-series
______
Наши соц.сети:…

88 viewsAnatoly Alekseev, 17:18

Aspiring Data Science

#dummy #baselines #sklearn #timeseries

Чёт я задумался, что Dummy* модели в sklearn совсем не предназначены для временных рядов. Сел сочинять Feature Request, посмотрим, если не зарубят, даже сам над ним поработаю.

И, кстати сказать, неудобно, что на практике всегда перебираешь все доступные стратегии, чтобы создать хоть какой-то разумный бэйз.

У меня пока такие идеи:

1) дать возможность указывать окно, как в pandas при вычислении rolling/expanding. Вводим для этого параметр scope:str={"rolling","expanding","all"}. Если scope!="all", стратегия применяется не ко всему датасету, а к окошку. параметры **kwargs передаются напрямую в метод scope ряда pandas.

Для полной поддержки взвешенных окон придётся добавить **extra_kwargs:

kwargs=dict(window=5, win_type="gaussian")
extra_kwargs=dict(std=0.1)
# Supplementary Scipy arguments passed in the aggregation function
y.rolling(**kwargs).mean(**extra_kwargs)

2) добавить strategy="lag" (только для scope="rolling")

3) добавить strategy="best", которая будет внутри перебирать все остальные стратегии, чтобы выдать пользователю самую сильную базу. Также придётся добавить параметр scoring, как в cross_validate, чтоб можно было сравнивать стратегии.

4) добавить strategy="ewm" на базе того же пандас. параметры **kwargs передаются напрямую в метод ewm pandas.

5) добавить strategy="apply" (для scope!="all") для применения кастомных аггрегирующих функций. Будет транслироваться в

def mad(x):
    return np.fabs(x - x.mean()).mean()

kwargs=dict(window=4)
extra_kwargs=dict(func=mad, raw=True)

y.rolling(**kwargs).apply(**extra_kwargs)

6) в случае задания окна, хотелось бы добавить классу немного ума. пусть бы сам искал, какое окно даёт наилучший скоринг? только вот как это сделать, если индексом служит время, слишком много же вариантов получается.

Ещё придётся думать о сортировке y (если это ряд pandas с datetimelike-индексом) и заполнении пропусков (у окон есть параметр min_period, так что пропуски вполне могут появиться). Думаю заполнять пропуски либо backfill-ом, либо стратегией, применённой ко всему датасету. Нужен новый параметр fill_na:str={"backfill","strategy"}, видимо.

Есть ещё предложения по стратегиям?

В общем, запостил FR: https://github.com/scikit-learn/scikit-learn/issues/29813

115 viewsAnatoly Alekseev, edited 10:30

Aspiring Data Science

#finance #trading #timeseries #lstm #rv

Интересная мысль, что для рекуррентных сетей input dimension начинает играть роль гиперпараметра (причём важного).

https://www.youtube.com/watch?v=lc8qKP8yH3E

YouTube

Герман Родиков | Predicting specific time series by blending deep learning techniques

Спикер: Герман Родиков, University of Bologna

Тема доклада: Predicting specific time series by blending deep learning techniques with domain-specific knowledge

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в…

120 viewsAnatoly Alekseev, edited 08:24

Aspiring Data Science

#gpt #timeseries

https://www.youtube.com/watch?v=2Z2KE7jTnYs

YouTube

Мартин Габдушев | Foundation модели: есть ли жизнь во временных рядах

Спикер: Мартин Габдушев, ML разработчик ETNA

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции Time Series: https://ods.ai/tracks/df24-time-series
______
Наши соц.сети:
Telegram: https://t.me/datafest…

125 viewsAnatoly Alekseev, 05:43

About

Blog

Apps

Platform