Aspiring Data Science
273 subscribers
346 photos
9 videos
5 files
1.12K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#numpy #stats #percentile

А Вы задумывались, что вообще-то для вычисления перцентилей/квантилей есть КУЧА методов? По дефолту идёт линейный, но в доках в общем случае для неизвестного распределения рекомендуется median_unbiased.

Облом состоит в том, что numba параметр method не поддерживает.
#entropy #antropy #stats #informationtheory

Ботанам, которые любят считать энтропию, пригодится!

https://raphaelvallat.com/antropy/build/html/index.html
#stats #r2

Удивительное рядом. При разных наклонах линии регрессии коэффициент детерминации для по сути одного и того же ряда варьируется от 0 до 0.9! Кто знал, что так бывает, ставьте необычный эмодзи )

https://stats.stackexchange.com/questions/519784/linear-regression-r-squared-vs-slope
#stats #informationtheory #sklearn #bollocks

Я сильно верил во взаимную информацию, потому что сам много лет назад делал её расчёты, и у меня были прекрасные результаты. Но как же это понятие изгадили в sklearn... У меня просто глаза на лоб полезли от этой "реализации". Позапускайте несколько раз:

mutual_info_regression(
np.arange(10).reshape(-1, 1),
(np.arange(10) * 2).ravel(),
)
reported a bug
#chess #stats

Нашёл свою старую шахматную аналитику по рейтингам FIDE, вдруг кому надо подобное. Цель была в определении "восходящих звёзд" и особенно "подозрительно быстро восходящих звёзд".

https://github.com/fingoldo/FideRatings/blob/master/FideRatings.ipynb
#math #stats

Для ценителей математической красоты, но не просто абстрактной, а на стыке с практикой и реальностью.

"А. М. Шурыгин, Нестандартные вариационные задачи в математической статистике, Труды МИАН, 2002, том 236, 378–385."

"Сорок лет очень активных поисков “робастных” оценок, которые должны быть устойчивыми к малым вариациям модельной плотности распределения, имеют скромные успехи. Оптимальная устойчивая оценка не была найдена даже для центра нормального распределения: оценки зависели от неоцениваемых параметров. Причиной являлось использование традиционных методов математической статистики в нестандартной задаче. Использование методов вариационного исчисления и функционального дифференцирования сводит задачу к нестандартной задаче вариационного исчисления и после ее решения делает проблему простой и дает возможность получить компактное оптимальное решение для произвольного параметра распределения."

https://www.mathnet.ru/links/52bfcb49243e547ab0fadf40df1054dc/tm309.pdf
#stats #infographic

alpha бы не повредила
#stats #numpy #numba

Набрёл на вот такую библиотечку быстрых вычислений статистик bottleneck. Мне надо было считать скользящую среднюю, так эта библа вдвое заруливает мою реализацию на numba!

PS. Ах, нет, заруливает только в некоторых частных случаях ) В большинстве случаев нумба король.