Aspiring Data Science – Telegram

Aspiring Data Science

@aspiringdatascience

370 subscribers

425 photos

11 videos

10 files

1.88K links

Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.

Download Telegram

About

Blog

Apps

Platform

Aspiring Data Science

370 subscribers

Aspiring Data Science

#timeseries #dsp #fourier #fft #psd

"After we have transformed a signal to the frequency-domain, we can extract features from each of these transformed signals and use these features as input in standard classifiers like Random Forest, Logistic Regression, Gradient Boosting or Support Vector Machines.

Which features can we extract from these transformations? A good first step is the value of the frequencies at which oscillations occur and the corresponding amplitudes. In other words; the x and y-position of the peaks in the frequency spectrum."

https://ataspinar.com/2018/04/04/machine-learning-with-signal-processing-techniques/

107 viewsAnatoly Alekseev, edited 07:55

Aspiring Data Science

#timeseries #wavelets #scaleogram #dwt #cwt

В комментах сравнительная таблица точностей разных вейвлетов на нескольких ML-задачах.

https://ataspinar.com/2018/12/21/a-guide-for-using-the-wavelet-transform-in-machine-learning/

95 viewsAnatoly Alekseev, edited 09:16

Aspiring Data Science

#timeseries #anomalydetection #nabscore #autoencoders

Странноватое сравнение, либо не так что-то я понял. Но я не верю, что детектор ЛИШЬ на текущих точках (пусть и тысячи сенсоров) может отработать на порядок лучше рекуррентного, который располагает ДОПОЛНИТЕЛЬНО окном данных. И непонятно, почему наличие окна должно как-то снижать оперативность детекции. Закрадывается подозрение, что ряд нарубили неперекрывающимися окнами вместо перекрывающихся, и это искусственно уменьшило скорость реакции и, соответственно, nab score.

https://www.youtube.com/watch?v=B6r20LBrvYw

Обнаружение аномалий во временных рядах / Павел Филонов (Лаборатория Касперского)

Приглашаем на конференцию Saint HighLoad++ 2025, которая пройдет 23 и 24 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ 2017

Тезисы:
http://www.highload.ru/2017/abstracts/2938.html…

137 viewsAnatoly Alekseev, edited 13:36

Aspiring Data Science

#timeseries #vorontsov #holt #winters #trigg #leach #adaptiveselection #lawr

https://www.youtube.com/watch?v=Rmh6b96u6UU

Машинное обучение. Прогнозирование временных рядов. К.В. Воронцов, Школа анализа данных, Яндекс.

Прогнозирование временных рядов – это специальный случай задачи регрессии, в которой объекты выборки линейно упорядочены по времени. Обучающая выборка находится в прошлом, тестовая – в будущем. В простых задачах из области эконометрики поведение временного…

👍1

111 viewsAnatoly Alekseev, edited 03:49

Aspiring Data Science

#conformal #mapie #crepes #timeseries

Конформализированная квантильная регрессия - как тебе такое, Илон Маск?!
Для временных рядов важный вопрос заключается в выборе калибрационного множества.

https://www.youtube.com/watch?v=--WcrDRtrYk

Inge van den Ende-Leveraging conformal prediction for calibrated probabilistic time series forecasts

With the increasing amount of volatile renewable energy sources, it becomes more and more challenging to keep the electrical grid in balance. Probabilistic energy price forecasts can help to create this balance. But how do we obtain well-calibrated forecasts?…

✍2

195 viewsAnatoly Alekseev, edited 06:47

Aspiring Data Science

#masters #scaling #preprocessing #robustscaler #timeseries

Перечитываю Мастерса, у него очень интересный подход к нормироваке и шкалированию временных рядов. Вместо общепринятых среднего и скв. отклонения в формуле (val-mean)/std, он использует медиану и межквартильное расстояние iqr. Идея очень резонная в плане устойчивости к выбросам. Я вот что подумал, в sklearn, конечно, есть RobustScaler, который делает вроде бы то же самое, но фишка в том, что Мастерс нормирующие показатели вычисляет не по всему train set, как RobustScaler, а по скользящему окну из последних T наблюдений. Надо бы попробовать модифицировать RobustScaler с учётом этой идеи.

👍1

137 viewsAnatoly Alekseev, edited 11:38

Aspiring Data Science

#timeseries

Презентация немного неряшлива, но темы подняты интересные. Бэйзлайн во временных рядах - наше всё.

https://www.youtube.com/watch?v=QPIimJphFu8

Jonathan Bechtel - Forecasting With Classical and Machine Learning Methods | PyData NYC 2023

www.pydata.org

Traditional time series models such as ARIMA and exponential smoothing have typically been used to forecast time series data, but the use of machine learning methods have been able to set new benchmarks for accuracy in high profile forecasting…

145 viewsAnatoly Alekseev, 08:51

Aspiring Data Science

#timeseries #anns

https://www.youtube.com/watch?v=svNwWSgz2NM

Deep Learning for Time Series | Dimitry Larko | Kaggle Days

Kaggle Days China edition was held on October 19-20 at Damei Center, Beijing.

More than 400 data scientists and enthusiasts gathered to learn, make friends, and compete in a full-day offline competition.

Kaggle Days is produced by LogicAI and Kaggle.

About…

130 viewsAnatoly Alekseev, 04:07

Aspiring Data Science

#sax #timeseries #shaplets

Интересная идея кодирования временного ряда алфавитом. Давнооо видел, сам не пробовал.

https://www.youtube.com/watch?v=2MdL1cm7HAI

Learning from Electronic Health Records: from temporal abstractions to time series interpretability

Panagiotis Papapetrou:
Learning from Electronic Health Records: from temporal abstractions to time series interpretability

Machine Learning Coffee Seminar, 25th February 2019.

Machine Learning Coffee Seminar: https://www.hiit.fi/news-and-events/machine…

124 viewsAnatoly Alekseev, edited 19:57

Aspiring Data Science

Forwarded from asisakov

Дождались

Наконец-то выложили видео с моим выступлением на датафесте!

Все прошло очень круто, тем более в этот день конференция проходила в гостях у Яндекса и по классике все было очень приятно.

Единственная проблема была вызвана ощущуением конкуренции с треком по LLMкам, который проходил параллельно нашим активностям, но мои переживания были напрасны. Ребята настолько задолбались слушать про RAGи, что как раз на мое выступление подошло достаточно большое количество людей, которые при этом были сильно вовлечены. Это было очень приятно, что все-таки временные ряды важны не только узкому числу людей. После выступления также небольшое время мы с ребятами общались про нюансы подготовки признаков и применения моделей.

С этого момента прошло достаточно много времени, поэтому я решил, что будет полезно с этим ознакомиться и в печатном виде, и поэтому мы с коллегами готовим статью на Хабре. Как только опубликуем, также поделюсь ссылкой.

Кстати, вот ссылка на видео: https://www.youtube.com/watch?v=lL9Dimm5UuE

#life #ml #timeseries

Александр Исаков | Краткосрочное прогнозирование заказов для создания курьерских слотов на лавках

Спикер: Александр Исаков, аналитик-разработчик, Яндекс Лавка

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции Time Series: https://ods.ai/tracks/df24-time-series
______
Наши соц.сети:
Telegram: ht…

👍3✍1🔥1

121 viewsAnatoly Alekseev, 18:18

Aspiring Data Science

#timeseries #transferlearning

Что интересно - использование BERT-а, предобученного на текстовом корпусе, улучшало сходимость на временнных рядах. Как такая мульти-модальность работает вообще?!

https://youtu.be/fwkE417Bg9g?si=Z0DYpwsSijs5EmqH

Ксения Кувшинова | Forecast and chill: Zero-Shot Foundation Models for Time Series

Спикер: Ксения Кувшинова, Sber AI Lab

Тема доклада: Foundation models - это модели, которые предобучены на большом количестве данных и могут быть применены к различным задачам как с дообучением, так и в zero-shot режиме.

Data Fest 2024: https://ods.ai/…

❤1

114 viewsAnatoly Alekseev, edited 14:54

Aspiring Data Science

#timeseries #outliers

https://www.youtube.com/watch?v=trXeFyA5MwM

Александр Греков | Прогноз и выделение аномалий в данных активности двустворчатых моллюсков

Спикер: Александр Греков, Институт природно-технических систем (Севастополь)

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции Time Series: https://ods.ai/tracks/df24-time-series
______
Наши соц.сети:…

106 viewsAnatoly Alekseev, 17:18

Aspiring Data Science

#dummy #baselines #sklearn #timeseries

Чёт я задумался, что Dummy* модели в sklearn совсем не предназначены для временных рядов. Сел сочинять Feature Request, посмотрим, если не зарубят, даже сам над ним поработаю.

И, кстати сказать, неудобно, что на практике всегда перебираешь все доступные стратегии, чтобы создать хоть какой-то разумный бэйз.

У меня пока такие идеи:

1) дать возможность указывать окно, как в pandas при вычислении rolling/expanding. Вводим для этого параметр scope:str={"rolling","expanding","all"}. Если scope!="all", стратегия применяется не ко всему датасету, а к окошку. параметры **kwargs передаются напрямую в метод scope ряда pandas.

Для полной поддержки взвешенных окон придётся добавить **extra_kwargs:

kwargs=dict(window=5, win_type="gaussian")
extra_kwargs=dict(std=0.1)
# Supplementary Scipy arguments passed in the aggregation function
y.rolling(**kwargs).mean(**extra_kwargs)

2) добавить strategy="lag" (только для scope="rolling")

3) добавить strategy="best", которая будет внутри перебирать все остальные стратегии, чтобы выдать пользователю самую сильную базу. Также придётся добавить параметр scoring, как в cross_validate, чтоб можно было сравнивать стратегии.

4) добавить strategy="ewm" на базе того же пандас. параметры **kwargs передаются напрямую в метод ewm pandas.

5) добавить strategy="apply" (для scope!="all") для применения кастомных аггрегирующих функций. Будет транслироваться в

def mad(x):
    return np.fabs(x - x.mean()).mean()

kwargs=dict(window=4)
extra_kwargs=dict(func=mad, raw=True)

y.rolling(**kwargs).apply(**extra_kwargs)

6) в случае задания окна, хотелось бы добавить классу немного ума. пусть бы сам искал, какое окно даёт наилучший скоринг? только вот как это сделать, если индексом служит время, слишком много же вариантов получается.

Ещё придётся думать о сортировке y (если это ряд pandas с datetimelike-индексом) и заполнении пропусков (у окон есть параметр min_period, так что пропуски вполне могут появиться). Думаю заполнять пропуски либо backfill-ом, либо стратегией, применённой ко всему датасету. Нужен новый параметр fill_na:str={"backfill","strategy"}, видимо.

Есть ещё предложения по стратегиям?

В общем, запостил FR: https://github.com/scikit-learn/scikit-learn/issues/29813

❤2🏆1

129 viewsAnatoly Alekseev, edited 10:30

Aspiring Data Science

#finance #trading #timeseries #lstm #rv

Интересная мысль, что для рекуррентных сетей input dimension начинает играть роль гиперпараметра (причём важного).

https://www.youtube.com/watch?v=lc8qKP8yH3E

Герман Родиков | Predicting specific time series by blending deep learning techniques

Спикер: Герман Родиков, University of Bologna

Тема доклада: Predicting specific time series by blending deep learning techniques with domain-specific knowledge

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в…

👍2

137 viewsAnatoly Alekseev, edited 08:24

Aspiring Data Science

#gpt #timeseries

https://www.youtube.com/watch?v=2Z2KE7jTnYs

Мартин Габдушев | Foundation модели: есть ли жизнь во временных рядах

Спикер: Мартин Габдушев, ML разработчик ETNA

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции Time Series: https://ods.ai/tracks/df24-time-series
______
Наши соц.сети:
Telegram: https://t.me/datafest…

142 viewsAnatoly Alekseev, 05:43

Aspiring Data Science

#timeseries #benchmarking

https://www.youtube.com/watch?v=vNul_AjRPFw

Problems in the current research on forecasting with transformers, foundational models, etc.

In this talk, we will discuss some fundamental limitations we perceive in the current operation of foundational models in the context of time series forecasting. We’ll argue that training on ever more data is not always beneficial, and we’ll illustrate how…

👍2

183 viewsAnatoly Alekseev, 18:50

Aspiring Data Science

#timeseries #ensembling #todo #hetboost

Что мне тут нравится, ансамблируются не просто МЛ-модельки, а еще и статмодельки.

И вот здесь автора доклада рассматривает идею, которая и меня с недавних пор преследует: гетерогенный бустинг.

У меня планируется исследование/сравнение продвинутых методов ансамблирования, и даже есть идея своего метода.
Это будет микс гетерогенного бустинга, ансамблевого отбора и стэкинга.

https://www.youtube.com/watch?v=xnF9QajUzv0

Boosting Time Series Accuracy: The Power of Ensemble Methods - Robert Haase (Paretos)

Boosting Time Series Accuracy: The Power of Ensemble Methods - Robert Haase (Paretos)

This talk explores the practical application of ensemble methods in time series analysis, based on Robert’s extensive experience at Pareto. It covers various ensembling…

🔥1

172 viewsAnatoly Alekseev, edited 08:53

Aspiring Data Science

#timeseries #ensembling #hetboost #pmdarima #todo

Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.

Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.

В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.

В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.

Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).

Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.

На этот год планирую сравнительное исследование )

Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.

Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.

Aspiring Data Science

#ensembling #hpo #hpt #autosklearn

Вот какой интересный метод ансамблирования опробовали авторы оптимизатора auto-sklearn:

"Two important problems in AutoML are that (1) no single machine learning method performs best on all datasets and (2) some machine…

🔥4👍1

136 viewsAnatoly Alekseev, edited 18:14

Aspiring Data Science

#timeseries

Неглубокий, но качественный доклад. Из интересного: лаги для комбинаций категорией, кастомные лоссы для бустинга. Оптуна и Шап.

https://www.youtube.com/watch?v=MF3ZNET89F0

Optimizing Ad Conversions with DS / Yael Kiselman (DigitalTurbine)

DigitalTurbine is a leading brand in the mobile advertising industry.
In this talk Yael Kiselman (DS at DigitalTurbine) would share a few tips and tricks optimizing mobile app recommendation on the DT On-Device product.
Yael would share:
- The use of XGBoost…

157 viewsAnatoly Alekseev, edited 06:28

Aspiring Data Science

#healthcare #medicine #timeseries #wavelets

Интересно, как CWT хорошо зашло в качестве дискриминирующего признака.

https://www.youtube.com/watch?v=xzKlTcUhsh8

Tomasz Melcer: Extracting repetitive features from biomedical time series: a case study

Contributed Talk at the PL in ML: Polish View on Machine Learning 2018 Conference (plinml.mimuw.edu.pl).

Abstract:
Application of machine learning methods to biomedical signals often requires extraction of features occurring in a fairly repetitive way.
This…

72 viewsAnatoly Alekseev, edited 01:25