Biostatistics on the Table
Кстати, о книгах. Решил устроить себе семестр линала и приобрел для этого книгу. Она кажется довольно серьезной, хотя больше сосредоточена на коде и интуиции, чем на чистой математике (для восполнения этого пробела начал Гилберта Стрэнга читать).
А теперь самое интересное ...
😁4🔥3👏2
Наткнулся на отличное (понятное) объяснение, как часто говорят, самого странного результата во всей статистике – парадокса Штейна.
Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по этому поводу можно почитать статьи Брэдли Эфрона, но они уже сложные).
https://www.youtube.com/watch?v=FUQwijSDzg8
Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по этому поводу можно почитать статьи Брэдли Эфрона, но они уже сложные).
https://www.youtube.com/watch?v=FUQwijSDzg8
YouTube
The Stein Paradox - Numberphile
Professor Chris Oates discusses one of the most puzzling paradoxes in statistics. Extra footage: https://youtu.be/Z1-OH1ji8fU -- More links & stuff in full description below ↓↓↓
More from the Leverhulme Trust at: https://www.leverhulme.ac.uk (episode supporter)…
More from the Leverhulme Trust at: https://www.leverhulme.ac.uk (episode supporter)…
❤2
Biostatistics on the Table
Наткнулся на отличное (понятное) объяснение, как часто говорят, самого странного результата во всей статистике – парадокса Штейна. Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по…
Кому хочется погрузиться поглубже в эту тему, могу порекомендовать эту заметку:
https://www.econometrics.blog/post/not-quite-the-james-stein-estimator/
и это видео:
https://www.youtube.com/watch?v=cUqoHQDinCM
https://www.econometrics.blog/post/not-quite-the-james-stein-estimator/
и это видео:
https://www.youtube.com/watch?v=cUqoHQDinCM
www.econometrics.blog
Not Quite the James-Stein Estimator – econometrics.blog
❤3
Biostatistics on the Table
где все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод
Хотя, подумал, что можно попробовать вкратце описать в чем там связь (по-крайней мере, как я это понял).
1) с машинным обучением просто, результат касается того, что сейчас называют bias-variance trade-off (компоромисс между (не)смещенноcтью и эффективностью, в общем центральная тема в машинном обучение) и регуляризации (не дать данным говорить о себе слишком громко, чтобы минимизировать риск переобучения, здесь прежде всего связь с т.н. L2-регуляризацией и ridge-регрессией)
2) с байесовской статистикой можно подойти с двух сторон: эстиматор, предложенный Джеймсом и Штейном (JS) был предложен в рамках характеристики именно фриквентистских свойств, но его же можно рассматривать и с позиции эмпирических байесовских эстиматоров, это когда нам нужно получить много разных, но при этом похожих оценок и мы используем эмпирическое распределение этих оценок (скажем оценок максимального правдоподобия), чтобы "подкорректировать" каждую отдельную из них, то есть получается, что значение каждой отдельной оценки как бы "информируется" другими, такой же эффект наблюдается и при использовании JS (здесь стоит обратить внимание на знаменатель корректирующего множителя); с другой стороны, если вернуться к регуляризации, то L1- и L2-штрафы можно ввести с помощью априорных распределений на коэффициентах (двойное экспоненциальное и нормальное распределение, соответственно, причем между параметрами именно этих распределений и гиперпараметрами LASSO и ridge-регрессии есть прямая взаимосвязь), то есть схема такая получается: JS эстиматор -> L2-регуляризация <- нормальные априорные распределения на коэффициентах
1) с машинным обучением просто, результат касается того, что сейчас называют bias-variance trade-off (компоромисс между (не)смещенноcтью и эффективностью, в общем центральная тема в машинном обучение) и регуляризации (не дать данным говорить о себе слишком громко, чтобы минимизировать риск переобучения, здесь прежде всего связь с т.н. L2-регуляризацией и ridge-регрессией)
2) с байесовской статистикой можно подойти с двух сторон: эстиматор, предложенный Джеймсом и Штейном (JS) был предложен в рамках характеристики именно фриквентистских свойств, но его же можно рассматривать и с позиции эмпирических байесовских эстиматоров, это когда нам нужно получить много разных, но при этом похожих оценок и мы используем эмпирическое распределение этих оценок (скажем оценок максимального правдоподобия), чтобы "подкорректировать" каждую отдельную из них, то есть получается, что значение каждой отдельной оценки как бы "информируется" другими, такой же эффект наблюдается и при использовании JS (здесь стоит обратить внимание на знаменатель корректирующего множителя); с другой стороны, если вернуться к регуляризации, то L1- и L2-штрафы можно ввести с помощью априорных распределений на коэффициентах (двойное экспоненциальное и нормальное распределение, соответственно, причем между параметрами именно этих распределений и гиперпараметрами LASSO и ridge-регрессии есть прямая взаимосвязь), то есть схема такая получается: JS эстиматор -> L2-регуляризация <- нормальные априорные распределения на коэффициентах
Biostatistics on the Table
Второй раз сталкиваюсь с таким, в прошлый раз в категорию "Made for kids" попала какая-то лекция Андрю Гелмана, сейчас вот про EM-алгоритм
На всякий случай, вдруг кому-то понадобится. Вменяемые материалы по анализу неполных данных очень сложно найти (но есть достаточно много невменяемых, к сожалению)
- Семинары Craig Enders в Nebraska Center for Research on Children, Youth, Families and Schools (2015): часть 1, часть 2
- Multiple Imputation in Practice от Trivellore Raghunathan (2022): часть 1, часть 2, часть 3, часть 4
- Курс «Missing Data Methods» от Jonathan Templin (2025) по книге Craig Enders «Applied Missing Data Analysis», но с использованием R
- И тот курс, который для детей, по книге Little, Rubin «Statistical Analysis with Missing Data», видимо, очень стоящий
стоит еще обратить внимание на лекции по отдельным темам от Rod Little и James Carpenter на YouTube
- Семинары Craig Enders в Nebraska Center for Research on Children, Youth, Families and Schools (2015): часть 1, часть 2
- Multiple Imputation in Practice от Trivellore Raghunathan (2022): часть 1, часть 2, часть 3, часть 4
- Курс «Missing Data Methods» от Jonathan Templin (2025) по книге Craig Enders «Applied Missing Data Analysis», но с использованием R
- И тот курс, который для детей, по книге Little, Rubin «Statistical Analysis with Missing Data», видимо, очень стоящий
стоит еще обратить внимание на лекции по отдельным темам от Rod Little и James Carpenter на YouTube
YouTube
Multiple Imputation in Practice (July 2022) Part 1
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
❤9🔥3
Biostatistics on the Table
но есть достаточно много невменяемых, к сожалению
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
❤1
Biostatistics on the Table
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
То, что восполнение средними (медианами, модами) – sucky метод это правда, это самый плохой подход даже среди самых плохих подходов. Пожалуйста, никогда его не используйте, вообще все что угодно другое будет лучше.
Вот он пишет, что работает только при MCAR (missing completely at random, то есть буквально смотрим на ячейку в таблице подбрасываем (смещенную) монетку и если выпадет орел нажимаем Delete).
Пример для этого типа восполнения выделен мной справа. Можете ради интереса подумать (или поэкспериментировать), что будет происходить с регрессионной линией если часть значений по Y или по X будут MCAR и мы эти пропуски восполним средним (медианой, модой), даже если данных очень много.
Восполнение средним будет приводить к несмещенной оценке матоджидания при MCAR – это да, но при MCAR оценка матоджидания будет несмещенной и при анализе только полных случаев (мы ведь оттуда восполняем), но что будет с оценкой стандарной ошибки среднего, что будет с оценкой дисперсии/стандартного отклонения и вообще любой ассоциации с участием этой переменной?
Вот он пишет, что работает только при MCAR (missing completely at random, то есть буквально смотрим на ячейку в таблице подбрасываем (смещенную) монетку и если выпадет орел нажимаем Delete).
Пример для этого типа восполнения выделен мной справа. Можете ради интереса подумать (или поэкспериментировать), что будет происходить с регрессионной линией если часть значений по Y или по X будут MCAR и мы эти пропуски восполним средним (медианой, модой), даже если данных очень много.
Восполнение средним будет приводить к несмещенной оценке матоджидания при MCAR – это да, но при MCAR оценка матоджидания будет несмещенной и при анализе только полных случаев (мы ведь оттуда восполняем), но что будет с оценкой стандарной ошибки среднего, что будет с оценкой дисперсии/стандартного отклонения и вообще любой ассоциации с участием этой переменной?
❤3👍2🔥1
Biostatistics on the Table
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
Есть еще часто встречающийся "грешок" – в некоторых материалах на тему начинают рассуждать "стоит ли в модель импутации пропусков значений предиктора вносить изучаемый исход?".
Если увидите такое, знайте, этому материалу скорее всего нельзя доверять (по-крайней мере в плане раздела по пропускам), среди людей, которые специализируются на этой теме такого вопроса никогда не стояло, то есть всегда и всем было очевидно, что да, обязательно нужно (если этого не сделать, то оценка "эффекта" в субстантивной модели будет смещенной в сторону нуля).
Если увидите такое, знайте, этому материалу скорее всего нельзя доверять (по-крайней мере в плане раздела по пропускам), среди людей, которые специализируются на этой теме такого вопроса никогда не стояло, то есть всегда и всем было очевидно, что да, обязательно нужно (если этого не сделать, то оценка "эффекта" в субстантивной модели будет смещенной в сторону нуля).
👍3
Ой, выход нового выступления Гелмана – всегда радость, только что-то выглядит он слишком серьезным
https://www.youtube.com/watch?v=aNjUIP1p1HM
https://www.youtube.com/watch?v=aNjUIP1p1HM
YouTube
Andrew Gelman - What's Going On In There? Bayesian Tools for Understanding a Fitted Model
For information on upcoming conferences, visit https://www.dataconf.ai.
What's Going On In There? Bayesian Tools for Understanding a Fitted Model by Andrew Gelman
Abstract: A fitted model is a mapping from data (including information encoded in the model…
What's Going On In There? Bayesian Tools for Understanding a Fitted Model by Andrew Gelman
Abstract: A fitted model is a mapping from data (including information encoded in the model…
❤5
Смотрите на что наткнулся, не терпится почитать
The Epic Story of Maximum Likelihood (Стиглер*)
* тот самый Стиглер из закона эпонимии, который применим к самому себе
The Epic Story of Maximum Likelihood (Стиглер*)
* тот самый Стиглер из закона эпонимии, который применим к самому себе
❤2
Biostatistics on the Table
Стиглер
А, ну да, забыл совсем, название канала было у него позаимствовано )
❤7👍1🔥1
Прикольное объяснение.
Обобщения, особенно, неожиданные (например, как в конце этого видео), должны приносить удовольствие
https://www.youtube.com/watch?v=hFhTteox_HM
Обобщения, особенно, неожиданные (например, как в конце этого видео), должны приносить удовольствие
https://www.youtube.com/watch?v=hFhTteox_HM
YouTube
Every Type of Mean Explained in 1 Formula
We explore how the arithmetic, harmonic, and geometric means can all be expressed using a more general formula.
Further reading:
https://en.wikipedia.org/wiki/Quasi-arithmetic_mean
00:00 Intro
00:26 Arithmetic mean
01:15 Harmonic mean
03:58 Geometric mean…
Further reading:
https://en.wikipedia.org/wiki/Quasi-arithmetic_mean
00:00 Intro
00:26 Arithmetic mean
01:15 Harmonic mean
03:58 Geometric mean…
❤2
Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.
Biostatistics on the Table
Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.
YouTube
Data Science – Baba Brinkman Music Video
From the album "Bright Future", out now:
https://music.bababrinkman.com/album/bright-future
https://linktr.ee/bababrinkman
Rap battle between a data scientist and a classical statistician, arguing for predictive algorithmic models versus inferential data…
https://music.bababrinkman.com/album/bright-future
https://linktr.ee/bababrinkman
Rap battle between a data scientist and a classical statistician, arguing for predictive algorithmic models versus inferential data…
🔥2
Biostatistics on the Table
Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.
Это вообще шедевр
https://www.youtube.com/watch?v=qV6Wc_f1Cgo
https://www.youtube.com/watch?v=qV6Wc_f1Cgo
YouTube
Good Bayesian
Provided to YouTube by TuneCore
Good Bayesian · Baba Brinkman · MC Lars · Mega Ran
The Rap Guide to Consciousness
℗ 2018 Lit Fuse Records
Released on: 2018-04-20
Auto-generated by YouTube.
Good Bayesian · Baba Brinkman · MC Lars · Mega Ran
The Rap Guide to Consciousness
℗ 2018 Lit Fuse Records
Released on: 2018-04-20
Auto-generated by YouTube.
🔥2
На это, кстати, стоит обратить внимание.
У автора, Майкла Френдли, не только крутая фамилия, но и несомненно талант повествователя.
Читал отдельные главы из его "Discrete Data Analysis with R", откуда очень много подчерпнул, а в личном must read списке его предпоследний труд "A History of Data Visualization and Graphic Communication" значится (надеюсь хотя бы к концу года прочту)
У автора, Майкла Френдли, не только крутая фамилия, но и несомненно талант повествователя.
Читал отдельные главы из его "Discrete Data Analysis with R", откуда очень много подчерпнул, а в личном must read списке его предпоследний труд "A History of Data Visualization and Graphic Communication" значится (надеюсь хотя бы к концу года прочту)
❤1