Aspiring Data Science

#numpy #stats #percentile

А Вы задумывались, что вообще-то для вычисления перцентилей/квантилей есть КУЧА методов? По дефолту идёт линейный, но в доках в общем случае для неизвестного распределения рекомендуется median_unbiased.

Облом состоит в том, что numba параметр method не поддерживает.

56 viewsedited 23:28

https://www.johndcook.com/blog/2009/06/23/tukey-median-ninther/

#stats #tukey #ninther

Как эффективно вычислять медиану: взгляд из 1978.

John D. Cook | Applied Mathematics Consulting

John Tukey's median of medians | ninther

Yesterday I got an email from Jestin Abraham asking a question about Tukey's "median of medians" paper from 1978. (The full title is "The Ninther, a Technique for Low-Effort Robust (Resistant) Location in Large Samples.") Jestin thought I might be familiar…

57 views02:54

Aspiring Data Science

#entropy #antropy #stats #informationtheory

Ботанам, которые любят считать энтропию, пригодится!

https://raphaelvallat.com/antropy/build/html/index.html

54 views09:27

Aspiring Data Science

#stats #r2

Удивительное рядом. При разных наклонах линии регрессии коэффициент детерминации для по сути одного и того же ряда варьируется от 0 до 0.9! Кто знал, что так бывает, ставьте необычный эмодзи )

https://stats.stackexchange.com/questions/519784/linear-regression-r-squared-vs-slope

52 viewsedited 17:00

Aspiring Data Science

#stats #informationtheory #sklearn #bollocks

Я сильно верил во взаимную информацию, потому что сам много лет назад делал её расчёты, и у меня были прекрасные результаты. Но как же это понятие изгадили в sklearn... У меня просто глаза на лоб полезли от этой "реализации". Позапускайте несколько раз:

mutual_info_regression(
np.arange(10).reshape(-1, 1),
(np.arange(10) * 2).ravel(),
)
reported a bug

GitHub

Proposal to change default value of n_neighbors in mutual_info_regression · Issue #25580 · scikit-learn/scikit-learn

Describe the bug Hi, recently I figured out that for short sequences default value of 3 is way too unstable and gives poor results. Don't know the reasons why 3 was used, my testing shows t...

67 viewsedited 22:38

Aspiring Data Science

#chess #stats

Нашёл свою старую шахматную аналитику по рейтингам FIDE, вдруг кому надо подобное. Цель была в определении "восходящих звёзд" и особенно "подозрительно быстро восходящих звёзд".

https://github.com/fingoldo/FideRatings/blob/master/FideRatings.ipynb

54 views16:22

Aspiring Data Science

#math #stats

Для ценителей математической красоты, но не просто абстрактной, а на стыке с практикой и реальностью.

"А. М. Шурыгин, Нестандартные вариационные задачи в математической статистике, Труды МИАН, 2002, том 236, 378–385."

"Сорок лет очень активных поисков “робастных” оценок, которые должны быть устойчивыми к малым вариациям модельной плотности распределения, имеют скромные успехи. Оптимальная устойчивая оценка не была найдена даже для центра нормального распределения: оценки зависели от неоцениваемых параметров. Причиной являлось использование традиционных методов математической статистики в нестандартной задаче. Использование методов вариационного исчисления и функционального дифференцирования сводит задачу к нестандартной задаче вариационного исчисления и после ее решения делает проблему простой и дает возможность получить компактное оптимальное решение для произвольного параметра распределения."

https://www.mathnet.ru/links/52bfcb49243e547ab0fadf40df1054dc/tm309.pdf

40 viewsedited 02:22

Aspiring Data Science

#trading #crypto #hft #backtesting https://www.youtube.com/watch?v=7whTVJ9MA20

#stats #probability #python

https://www.youtube.com/watch?v=blMLK620yCg

YouTube

#ЦМФ. Проект по теории вероятностей, математической статистике и случайным процессам

Александр Ланцов, студент программы «Количественная аналитика»:

0:35 Первая неделя: генераторы случайных чисел
2:35 Данные по коронавирусу
4:55 Вторая неделя: обработка данных по коронавирусу — учёт выходных и понедельников, оценка распределения, анализ…

44 views05:11

Aspiring Data Science

#stats #infographic

alpha бы не повредила

87 viewsAnatoly Alekseev, edited 11:58

Aspiring Data Science

#stats #numpy #numba

Набрёл на вот такую библиотечку быстрых вычислений статистик bottleneck. Мне надо было считать скользящую среднюю, так эта библа вдвое заруливает мою реализацию на numba!

PS. Ах, нет, заруливает только в некоторых частных случаях ) В большинстве случаев нумба король.

101 viewsAnatoly Alekseev, edited 18:11

About

Blog

Apps

Platform