Biostatistics on the Table

Кстати, о книгах. Решил устроить себе семестр линала и приобрел для этого книгу. Она кажется довольно серьезной, хотя больше сосредоточена на коде и интуиции, чем на чистой математике (для восполнения этого пробела начал Гилберта Стрэнга читать).

А теперь самое интересное ...

😁4🔥3👏2

208 viewsMaksim Kuznetsov, 16:40

Biostatistics on the Table

Наткнулся на отличное (понятное) объяснение, как часто говорят, самого странного результата во всей статистике – парадокса Штейна.
Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по этому поводу можно почитать статьи Брэдли Эфрона, но они уже сложные).

https://www.youtube.com/watch?v=FUQwijSDzg8

YouTube

The Stein Paradox - Numberphile

Professor Chris Oates discusses one of the most puzzling paradoxes in statistics. Extra footage: https://youtu.be/Z1-OH1ji8fU -- More links & stuff in full description below ↓↓↓

More from the Leverhulme Trust at: https://www.leverhulme.ac.uk (episode supporter)…

❤2

229 viewsMaksim Kuznetsov, edited 14:29

Biostatistics on the Table

Наткнулся на отличное (понятное) объяснение, как часто говорят, самого странного результата во всей статистике – парадокса Штейна. Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по…

Кому хочется погрузиться поглубже в эту тему, могу порекомендовать эту заметку:
https://www.econometrics.blog/post/not-quite-the-james-stein-estimator/
и это видео:
https://www.youtube.com/watch?v=cUqoHQDinCM

www.econometrics.blog

Not Quite the James-Stein Estimator – econometrics.blog

❤3

209 viewsMaksim Kuznetsov, edited 14:41

Biostatistics on the Table

где все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод

Хотя, подумал, что можно попробовать вкратце описать в чем там связь (по-крайней мере, как я это понял).

1) с машинным обучением просто, результат касается того, что сейчас называют bias-variance trade-off (компоромисс между (не)смещенноcтью и эффективностью, в общем центральная тема в машинном обучение) и регуляризации (не дать данным говорить о себе слишком громко, чтобы минимизировать риск переобучения, здесь прежде всего связь с т.н. L2-регуляризацией и ridge-регрессией)

2) с байесовской статистикой можно подойти с двух сторон: эстиматор, предложенный Джеймсом и Штейном (JS) был предложен в рамках характеристики именно фриквентистских свойств, но его же можно рассматривать и с позиции эмпирических байесовских эстиматоров, это когда нам нужно получить много разных, но при этом похожих оценок и мы используем эмпирическое распределение этих оценок (скажем оценок максимального правдоподобия), чтобы "подкорректировать" каждую отдельную из них, то есть получается, что значение каждой отдельной оценки как бы "информируется" другими, такой же эффект наблюдается и при использовании JS (здесь стоит обратить внимание на знаменатель корректирующего множителя); с другой стороны, если вернуться к регуляризации, то L1- и L2-штрафы можно ввести с помощью априорных распределений на коэффициентах (двойное экспоненциальное и нормальное распределение, соответственно, причем между параметрами именно этих распределений и гиперпараметрами LASSO и ridge-регрессии есть прямая взаимосвязь), то есть схема такая получается: JS эстиматор -> L2-регуляризация <- нормальные априорные распределения на коэффициентах

260 viewsMaksim Kuznetsov, edited 15:41

Biostatistics on the Table

https://www.youtube.com/shorts/ZkiG9_F41fU

YouTube

A Bayesian Victory at The Lancet | Berry Consultants

“This is a Bayesian study, please remove that frequentist analysis from the paper. So then I knew that things were possible.”Prof. Frank Harrell describes a ...

🔥4

233 viewsMaksim Kuznetsov, 16:57

Biostatistics on the Table

Прям философская дилемма какая-то

😁17

250 viewsMaksim Kuznetsov, 11:53

Biostatistics on the Table

Второй раз сталкиваюсь с таким, в прошлый раз в категорию "Made for kids" попала какая-то лекция Андрю Гелмана, сейчас вот про EM-алгоритм

❤4😁2🤣1

168 viewsMaksim Kuznetsov, 13:38

Biostatistics on the Table

На всякий случай, вдруг кому-то понадобится. Вменяемые материалы по анализу неполных данных очень сложно найти (но есть достаточно много невменяемых, к сожалению)

- Семинары Craig Enders в Nebraska Center for Research on Children, Youth, Families and Schools (2015): часть 1, часть 2
- Multiple Imputation in Practice от Trivellore Raghunathan (2022): часть 1, часть 2, часть 3, часть 4
- Курс «Missing Data Methods» от Jonathan Templin (2025) по книге Craig Enders «Applied Missing Data Analysis», но с использованием R
- И тот курс, который для детей, по книге Little, Rubin «Statistical Analysis with Missing Data», видимо, очень стоящий

стоит еще обратить внимание на лекции по отдельным темам от Rod Little и James Carpenter на YouTube

YouTube

Multiple Imputation in Practice (July 2022) Part 1

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

❤9🔥3

220 viewsMaksim Kuznetsov, edited 14:00

Biostatistics on the Table

но есть достаточно много невменяемых, к сожалению

И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)

❤1

176 viewsMaksim Kuznetsov, edited 15:03

Biostatistics on the Table

То, что восполнение средними (медианами, модами) – sucky метод это правда, это самый плохой подход даже среди самых плохих подходов. Пожалуйста, никогда его не используйте, вообще все что угодно другое будет лучше.

Вот он пишет, что работает только при MCAR (missing completely at random, то есть буквально смотрим на ячейку в таблице подбрасываем (смещенную) монетку и если выпадет орел нажимаем Delete).

Пример для этого типа восполнения выделен мной справа. Можете ради интереса подумать (или поэкспериментировать), что будет происходить с регрессионной линией если часть значений по Y или по X будут MCAR и мы эти пропуски восполним средним (медианой, модой), даже если данных очень много.

Восполнение средним будет приводить к несмещенной оценке матоджидания при MCAR – это да, но при MCAR оценка матоджидания будет несмещенной и при анализе только полных случаев (мы ведь оттуда восполняем), но что будет с оценкой стандарной ошибки среднего, что будет с оценкой дисперсии/стандартного отклонения и вообще любой ассоциации с участием этой переменной?

❤3👍2🔥1

180 viewsMaksim Kuznetsov, edited 15:14

Biostatistics on the Table

Есть еще часто встречающийся "грешок" – в некоторых материалах на тему начинают рассуждать "стоит ли в модель импутации пропусков значений предиктора вносить изучаемый исход?".

Если увидите такое, знайте, этому материалу скорее всего нельзя доверять (по-крайней мере в плане раздела по пропускам), среди людей, которые специализируются на этой теме такого вопроса никогда не стояло, то есть всегда и всем было очевидно, что да, обязательно нужно (если этого не сделать, то оценка "эффекта" в субстантивной модели будет смещенной в сторону нуля).

👍3

199 viewsMaksim Kuznetsov, edited 15:39

Biostatistics on the Table

Последнее про пропущенные данные на сегодня )

из лекции МакЭлрита

❤8😁1

213 viewsMaksim Kuznetsov, 18:32

Biostatistics on the Table

Ой, выход нового выступления Гелмана – всегда радость, только что-то выглядит он слишком серьезным

https://www.youtube.com/watch?v=aNjUIP1p1HM

YouTube

Andrew Gelman - What's Going On In There? Bayesian Tools for Understanding a Fitted Model

For information on upcoming conferences, visit https://www.dataconf.ai.

What's Going On In There? Bayesian Tools for Understanding a Fitted Model by Andrew Gelman

Abstract: A fitted model is a mapping from data (including information encoded in the model…

❤5

216 viewsMaksim Kuznetsov, 19:13

Biostatistics on the Table

Смотрите на что наткнулся, не терпится почитать

The Epic Story of Maximum Likelihood (Стиглер*)

* тот самый Стиглер из закона эпонимии, который применим к самому себе

❤2

184 viewsMaksim Kuznetsov, edited 12:00

Biostatistics on the Table

Стиглер

А, ну да, забыл совсем, название канала было у него позаимствовано )

❤7👍1🔥1

172 viewsMaksim Kuznetsov, 14:50

Biostatistics on the Table

Прикольное объяснение.

Обобщения, особенно, неожиданные (например, как в конце этого видео), должны приносить удовольствие

https://www.youtube.com/watch?v=hFhTteox_HM

YouTube

Every Type of Mean Explained in 1 Formula

We explore how the arithmetic, harmonic, and geometric means can all be expressed using a more general formula.

Further reading:
https://en.wikipedia.org/wiki/Quasi-arithmetic_mean

00:00 Intro
00:26 Arithmetic mean
01:15 Harmonic mean
03:58 Geometric mean…

❤2

206 viewsMaksim Kuznetsov, edited 10:24

Biostatistics on the Table

Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.

183 viewsMaksim Kuznetsov, 10:48

Biostatistics on the Table

Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.

https://www.youtube.com/watch?v=uHGlCi9jOWY

YouTube

Data Science – Baba Brinkman Music Video

From the album "Bright Future", out now:
https://music.bababrinkman.com/album/bright-future
https://linktr.ee/bababrinkman

Rap battle between a data scientist and a classical statistician, arguing for predictive algorithmic models versus inferential data…

🔥2

210 viewsMaksim Kuznetsov, 10:48

Biostatistics on the Table

Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.

Это вообще шедевр
https://www.youtube.com/watch?v=qV6Wc_f1Cgo

YouTube

Good Bayesian

Provided to YouTube by TuneCore

Good Bayesian · Baba Brinkman · MC Lars · Mega Ran

The Rap Guide to Consciousness

℗ 2018 Lit Fuse Records

Released on: 2018-04-20

Auto-generated by YouTube.

🔥2

221 viewsMaksim Kuznetsov, 10:49

Biostatistics on the Table

Из The Book of Why

❤3

167 viewsMaksim Kuznetsov, 12:05

Biostatistics on the Table

На это, кстати, стоит обратить внимание.
У автора, Майкла Френдли, не только крутая фамилия, но и несомненно талант повествователя.
Читал отдельные главы из его "Discrete Data Analysis with R", откуда очень много подчерпнул, а в личном must read списке его предпоследний труд "A History of Data Visualization and Graphic Communication" значится (надеюсь хотя бы к концу года прочту)

❤1

176 viewsMaksim Kuznetsov, edited 12:29

About

Blog

Apps

Platform