Biostatistics on the Table
314 subscribers
108 photos
5 videos
1 file
114 links
Место, где ML расшифровывается как Maximum Likelihood
Download Telegram
Наткнулся на отличное (понятное) объяснение, как часто говорят, самого странного результата во всей статистике – парадокса Штейна.
Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по этому поводу можно почитать статьи Брэдли Эфрона, но они уже сложные).

https://www.youtube.com/watch?v=FUQwijSDzg8
2
Biostatistics on the Table
где все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод
Хотя, подумал, что можно попробовать вкратце описать в чем там связь (по-крайней мере, как я это понял).

1) с машинным обучением просто, результат касается того, что сейчас называют bias-variance trade-off (компоромисс между (не)смещенноcтью и эффективностью, в общем центральная тема в машинном обучение) и регуляризации (не дать данным говорить о себе слишком громко, чтобы минимизировать риск переобучения, здесь прежде всего связь с т.н. L2-регуляризацией и ridge-регрессией)

2) с байесовской статистикой можно подойти с двух сторон: эстиматор, предложенный Джеймсом и Штейном (JS) был предложен в рамках характеристики именно фриквентистских свойств, но его же можно рассматривать и с позиции эмпирических байесовских эстиматоров, это когда нам нужно получить много разных, но при этом похожих оценок и мы используем эмпирическое распределение этих оценок (скажем оценок максимального правдоподобия), чтобы "подкорректировать" каждую отдельную из них, то есть получается, что значение каждой отдельной оценки как бы "информируется" другими, такой же эффект наблюдается и при использовании JS (здесь стоит обратить внимание на знаменатель корректирующего множителя); с другой стороны, если вернуться к регуляризации, то L1- и L2-штрафы можно ввести с помощью априорных распределений на коэффициентах (двойное экспоненциальное и нормальное распределение, соответственно, причем между параметрами именно этих распределений и гиперпараметрами LASSO и ridge-регрессии есть прямая взаимосвязь), то есть схема такая получается: JS эстиматор -> L2-регуляризация <- нормальные априорные распределения на коэффициентах
Прям философская дилемма какая-то
😁17
Второй раз сталкиваюсь с таким, в прошлый раз в категорию "Made for kids" попала какая-то лекция Андрю Гелмана, сейчас вот про EM-алгоритм
4😁2🤣1
Biostatistics on the Table
Второй раз сталкиваюсь с таким, в прошлый раз в категорию "Made for kids" попала какая-то лекция Андрю Гелмана, сейчас вот про EM-алгоритм
На всякий случай, вдруг кому-то понадобится. Вменяемые материалы по анализу неполных данных очень сложно найти (но есть достаточно много невменяемых, к сожалению)

- Семинары Craig Enders в Nebraska Center for Research on Children, Youth, Families and Schools (2015): часть 1, часть 2
- Multiple Imputation in Practice от Trivellore Raghunathan (2022): часть 1, часть 2, часть 3, часть 4
- Курс «Missing Data Methods» от Jonathan Templin (2025) по книге Craig Enders «Applied Missing Data Analysis», но с использованием R
- И тот курс, который для детей, по книге Little, Rubin «Statistical Analysis with Missing Data», видимо, очень стоящий

стоит еще обратить внимание на лекции по отдельным темам от Rod Little и James Carpenter на YouTube
9🔥3
Biostatistics on the Table
но есть достаточно много невменяемых, к сожалению
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
1
Biostatistics on the Table
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
То, что восполнение средними (медианами, модами) – sucky метод это правда, это самый плохой подход даже среди самых плохих подходов. Пожалуйста, никогда его не используйте, вообще все что угодно другое будет лучше.

Вот он пишет, что работает только при MCAR (missing completely at random, то есть буквально смотрим на ячейку в таблице подбрасываем (смещенную) монетку и если выпадет орел нажимаем Delete).

Пример для этого типа восполнения выделен мной справа. Можете ради интереса подумать (или поэкспериментировать), что будет происходить с регрессионной линией если часть значений по Y или по X будут MCAR и мы эти пропуски восполним средним (медианой, модой), даже если данных очень много.

Восполнение средним будет приводить к несмещенной оценке матоджидания при MCAR – это да, но при MCAR оценка матоджидания будет несмещенной и при анализе только полных случаев (мы ведь оттуда восполняем), но что будет с оценкой стандарной ошибки среднего, что будет с оценкой дисперсии/стандартного отклонения и вообще любой ассоциации с участием этой переменной?
3👍2🔥1
Biostatistics on the Table
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
Есть еще часто встречающийся "грешок" – в некоторых материалах на тему начинают рассуждать "стоит ли в модель импутации пропусков значений предиктора вносить изучаемый исход?".

Если увидите такое, знайте, этому материалу скорее всего нельзя доверять (по-крайней мере в плане раздела по пропускам), среди людей, которые специализируются на этой теме такого вопроса никогда не стояло, то есть всегда и всем было очевидно, что да, обязательно нужно (если этого не сделать, то оценка "эффекта" в субстантивной модели будет смещенной в сторону нуля).
👍3
Последнее про пропущенные данные на сегодня )

из лекции МакЭлрита
8😁1
Смотрите на что наткнулся, не терпится почитать

The Epic Story of Maximum Likelihood (Стиглер*)

* тот самый Стиглер из закона эпонимии, который применим к самому себе
2
Biostatistics on the Table
Стиглер
А, ну да, забыл совсем, название канала было у него позаимствовано )
7👍1🔥1
Прикольное объяснение.

Обобщения, особенно, неожиданные (например, как в конце этого видео), должны приносить удовольствие

https://www.youtube.com/watch?v=hFhTteox_HM
2
Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.
Из The Book of Why
3
На это, кстати, стоит обратить внимание.
У автора, Майкла Френдли, не только крутая фамилия, но и несомненно талант повествователя.
Читал отдельные главы из его "Discrete Data Analysis with R", откуда очень много подчерпнул, а в личном must read списке его предпоследний труд "A History of Data Visualization and Graphic Communication" значится (надеюсь хотя бы к концу года прочту)
1