Aspiring Data Science
317 subscribers
383 photos
10 videos
5 files
1.33K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#timeseries #ml #competition #electricity

Тот момент, когда организаторы ML сорева с валидацией в реальном времени задают странные вопросы о том, где ты взял OOS данные...
#ml #timeseries #transformers

↓ В моей практике был один случай, когда трансформер из торча очень элегантно решал соревнование по предсказанию продаж Сбермаркета. Автор скрипта - Павел Орлов. На сырых данных его решение давало почти такой же по МЛ качеству результат, как мой вдесятеро больший по коду скрипт со сложным FE. В том соревновании я, кстати, с изумлением узнал, что НЕЛЬЗЯ просто так взять и использовать натренированную модельку классификации, если в test пропорции классов отличаются от train. Нельзя. Вы скажете, но как же, ведь на то и обучение, чтобы по признакам научиться угадывать таргет, а вовсе не по какой-то там пропорции примеров в трейне. Нет. При достаточно отличающемся балансе в тест прогнозы будут смещены настолько, что их придётся пересчитывать по спецформуле. Этому, кстати, не учат нигде ни в книгах, ни на курсах. По кр мере, мне не попадалось. Уникальный контент для подписчиков моего блога )
#ml #timeseries #robustness

Используете ли Вы в задачах классификации рядов какие-то метрики робастности предсказаний? Одно дело, скажем, высокая точность или бриер лосс, но интуитивно неприятно, если прогноз на последовательных точках ряда часто меняется, или вероятности резко скачут туда-сюда от точки к точке. Столкнулся с этим на финансовых рядах. Думаю трекать что-то вроде preds.diff().abs().mean() для предсказаний и самих верных меток, как дополнительную меру качества моделек для TS.

Сразу опять-таки приходит вопрос, а почему устойчивость прогнозов по изменениям входов вообще никак не учитывается в МЛ? Да, можно посчитать важности признаков, но они по большей части считаются вовсе не небольшим варьированием входов. А ведь эта дополнительная мера качества могла бы помочь сделать выбор, скажем, между 2 коррелированными фичами. Обе имеют примерно одинаковое влияние (или одиночные ML метрики на таргет), но по одной прогнозы скачут сильнее. Тогда оставляем вторую. Может, я просто не знаю, и где-то это уже учитывается?
#timeseries #dsp #fourier #fft #psd

"After we have transformed a signal to the frequency-domain, we can extract features from each of these transformed signals and use these features as input in standard classifiers like Random Forest, Logistic Regression, Gradient Boosting or Support Vector Machines.

Which features can we extract from these transformations? A good first step is the value of the frequencies at which oscillations occur and the corresponding amplitudes. In other words; the x and y-position of the peaks in the frequency spectrum."

https://ataspinar.com/2018/04/04/machine-learning-with-signal-processing-techniques/