Biostatistics on the Table
где все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод
Хотя, подумал, что можно попробовать вкратце описать в чем там связь (по-крайней мере, как я это понял).
1) с машинным обучением просто, результат касается того, что сейчас называют bias-variance trade-off (компоромисс между (не)смещенноcтью и эффективностью, в общем центральная тема в машинном обучение) и регуляризации (не дать данным говорить о себе слишком громко, чтобы минимизировать риск переобучения, здесь прежде всего связь с т.н. L2-регуляризацией и ridge-регрессией)
2) с байесовской статистикой можно подойти с двух сторон: эстиматор, предложенный Джеймсом и Штейном (JS) был предложен в рамках характеристики именно фриквентистских свойств, но его же можно рассматривать и с позиции эмпирических байесовских эстиматоров, это когда нам нужно получить много разных, но при этом похожих оценок и мы используем эмпирическое распределение этих оценок (скажем оценок максимального правдоподобия), чтобы "подкорректировать" каждую отдельную из них, то есть получается, что значение каждой отдельной оценки как бы "информируется" другими, такой же эффект наблюдается и при использовании JS (здесь стоит обратить внимание на знаменатель корректирующего множителя); с другой стороны, если вернуться к регуляризации, то L1- и L2-штрафы можно ввести с помощью априорных распределений на коэффициентах (двойное экспоненциальное и нормальное распределение, соответственно, причем между параметрами именно этих распределений и гиперпараметрами LASSO и ridge-регрессии есть прямая взаимосвязь), то есть схема такая получается: JS эстиматор -> L2-регуляризация <- нормальные априорные распределения на коэффициентах
1) с машинным обучением просто, результат касается того, что сейчас называют bias-variance trade-off (компоромисс между (не)смещенноcтью и эффективностью, в общем центральная тема в машинном обучение) и регуляризации (не дать данным говорить о себе слишком громко, чтобы минимизировать риск переобучения, здесь прежде всего связь с т.н. L2-регуляризацией и ridge-регрессией)
2) с байесовской статистикой можно подойти с двух сторон: эстиматор, предложенный Джеймсом и Штейном (JS) был предложен в рамках характеристики именно фриквентистских свойств, но его же можно рассматривать и с позиции эмпирических байесовских эстиматоров, это когда нам нужно получить много разных, но при этом похожих оценок и мы используем эмпирическое распределение этих оценок (скажем оценок максимального правдоподобия), чтобы "подкорректировать" каждую отдельную из них, то есть получается, что значение каждой отдельной оценки как бы "информируется" другими, такой же эффект наблюдается и при использовании JS (здесь стоит обратить внимание на знаменатель корректирующего множителя); с другой стороны, если вернуться к регуляризации, то L1- и L2-штрафы можно ввести с помощью априорных распределений на коэффициентах (двойное экспоненциальное и нормальное распределение, соответственно, причем между параметрами именно этих распределений и гиперпараметрами LASSO и ridge-регрессии есть прямая взаимосвязь), то есть схема такая получается: JS эстиматор -> L2-регуляризация <- нормальные априорные распределения на коэффициентах
Biostatistics on the Table
Второй раз сталкиваюсь с таким, в прошлый раз в категорию "Made for kids" попала какая-то лекция Андрю Гелмана, сейчас вот про EM-алгоритм
На всякий случай, вдруг кому-то понадобится. Вменяемые материалы по анализу неполных данных очень сложно найти (но есть достаточно много невменяемых, к сожалению)
- Семинары Craig Enders в Nebraska Center for Research on Children, Youth, Families and Schools (2015): часть 1, часть 2
- Multiple Imputation in Practice от Trivellore Raghunathan (2022): часть 1, часть 2, часть 3, часть 4
- Курс «Missing Data Methods» от Jonathan Templin (2025) по книге Craig Enders «Applied Missing Data Analysis», но с использованием R
- И тот курс, который для детей, по книге Little, Rubin «Statistical Analysis with Missing Data», видимо, очень стоящий
стоит еще обратить внимание на лекции по отдельным темам от Rod Little и James Carpenter на YouTube
- Семинары Craig Enders в Nebraska Center for Research on Children, Youth, Families and Schools (2015): часть 1, часть 2
- Multiple Imputation in Practice от Trivellore Raghunathan (2022): часть 1, часть 2, часть 3, часть 4
- Курс «Missing Data Methods» от Jonathan Templin (2025) по книге Craig Enders «Applied Missing Data Analysis», но с использованием R
- И тот курс, который для детей, по книге Little, Rubin «Statistical Analysis with Missing Data», видимо, очень стоящий
стоит еще обратить внимание на лекции по отдельным темам от Rod Little и James Carpenter на YouTube
YouTube
Multiple Imputation in Practice (July 2022) Part 1
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
❤9🔥3
Biostatistics on the Table
но есть достаточно много невменяемых, к сожалению
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
❤1
Biostatistics on the Table
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
То, что восполнение средними (медианами, модами) – sucky метод это правда, это самый плохой подход даже среди самых плохих подходов. Пожалуйста, никогда его не используйте, вообще все что угодно другое будет лучше.
Вот он пишет, что работает только при MCAR (missing completely at random, то есть буквально смотрим на ячейку в таблице подбрасываем (смещенную) монетку и если выпадет орел нажимаем Delete).
Пример для этого типа восполнения выделен мной справа. Можете ради интереса подумать (или поэкспериментировать), что будет происходить с регрессионной линией если часть значений по Y или по X будут MCAR и мы эти пропуски восполним средним (медианой, модой), даже если данных очень много.
Восполнение средним будет приводить к несмещенной оценке матоджидания при MCAR – это да, но при MCAR оценка матоджидания будет несмещенной и при анализе только полных случаев (мы ведь оттуда восполняем), но что будет с оценкой стандарной ошибки среднего, что будет с оценкой дисперсии/стандартного отклонения и вообще любой ассоциации с участием этой переменной?
Вот он пишет, что работает только при MCAR (missing completely at random, то есть буквально смотрим на ячейку в таблице подбрасываем (смещенную) монетку и если выпадет орел нажимаем Delete).
Пример для этого типа восполнения выделен мной справа. Можете ради интереса подумать (или поэкспериментировать), что будет происходить с регрессионной линией если часть значений по Y или по X будут MCAR и мы эти пропуски восполним средним (медианой, модой), даже если данных очень много.
Восполнение средним будет приводить к несмещенной оценке матоджидания при MCAR – это да, но при MCAR оценка матоджидания будет несмещенной и при анализе только полных случаев (мы ведь оттуда восполняем), но что будет с оценкой стандарной ошибки среднего, что будет с оценкой дисперсии/стандартного отклонения и вообще любой ассоциации с участием этой переменной?
❤3👍2🔥1
Biostatistics on the Table
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
Есть еще часто встречающийся "грешок" – в некоторых материалах на тему начинают рассуждать "стоит ли в модель импутации пропусков значений предиктора вносить изучаемый исход?".
Если увидите такое, знайте, этому материалу скорее всего нельзя доверять (по-крайней мере в плане раздела по пропускам), среди людей, которые специализируются на этой теме такого вопроса никогда не стояло, то есть всегда и всем было очевидно, что да, обязательно нужно (если этого не сделать, то оценка "эффекта" в субстантивной модели будет смещенной в сторону нуля).
Если увидите такое, знайте, этому материалу скорее всего нельзя доверять (по-крайней мере в плане раздела по пропускам), среди людей, которые специализируются на этой теме такого вопроса никогда не стояло, то есть всегда и всем было очевидно, что да, обязательно нужно (если этого не сделать, то оценка "эффекта" в субстантивной модели будет смещенной в сторону нуля).
👍3
Ой, выход нового выступления Гелмана – всегда радость, только что-то выглядит он слишком серьезным
https://www.youtube.com/watch?v=aNjUIP1p1HM
https://www.youtube.com/watch?v=aNjUIP1p1HM
YouTube
Andrew Gelman - What's Going On In There? Bayesian Tools for Understanding a Fitted Model
For information on upcoming conferences, visit https://www.dataconf.ai.
What's Going On In There? Bayesian Tools for Understanding a Fitted Model by Andrew Gelman
Abstract: A fitted model is a mapping from data (including information encoded in the model…
What's Going On In There? Bayesian Tools for Understanding a Fitted Model by Andrew Gelman
Abstract: A fitted model is a mapping from data (including information encoded in the model…
❤5
Смотрите на что наткнулся, не терпится почитать
The Epic Story of Maximum Likelihood (Стиглер*)
* тот самый Стиглер из закона эпонимии, который применим к самому себе
The Epic Story of Maximum Likelihood (Стиглер*)
* тот самый Стиглер из закона эпонимии, который применим к самому себе
❤2
Biostatistics on the Table
Стиглер
А, ну да, забыл совсем, название канала было у него позаимствовано )
❤7👍1🔥1
Прикольное объяснение.
Обобщения, особенно, неожиданные (например, как в конце этого видео), должны приносить удовольствие
https://www.youtube.com/watch?v=hFhTteox_HM
Обобщения, особенно, неожиданные (например, как в конце этого видео), должны приносить удовольствие
https://www.youtube.com/watch?v=hFhTteox_HM
YouTube
Every Type of Mean Explained in 1 Formula
We explore how the arithmetic, harmonic, and geometric means can all be expressed using a more general formula.
Further reading:
https://en.wikipedia.org/wiki/Quasi-arithmetic_mean
00:00 Intro
00:26 Arithmetic mean
01:15 Harmonic mean
03:58 Geometric mean…
Further reading:
https://en.wikipedia.org/wiki/Quasi-arithmetic_mean
00:00 Intro
00:26 Arithmetic mean
01:15 Harmonic mean
03:58 Geometric mean…
❤2
Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.
Biostatistics on the Table
Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.
YouTube
Data Science – Baba Brinkman Music Video
From the album "Bright Future", out now:
https://music.bababrinkman.com/album/bright-future
https://linktr.ee/bababrinkman
Rap battle between a data scientist and a classical statistician, arguing for predictive algorithmic models versus inferential data…
https://music.bababrinkman.com/album/bright-future
https://linktr.ee/bababrinkman
Rap battle between a data scientist and a classical statistician, arguing for predictive algorithmic models versus inferential data…
🔥2
Biostatistics on the Table
Раз уж выходные, поделюсь своими любимыми треками любимого рэп-исполнителя.
Это вообще шедевр
https://www.youtube.com/watch?v=qV6Wc_f1Cgo
https://www.youtube.com/watch?v=qV6Wc_f1Cgo
YouTube
Good Bayesian
Provided to YouTube by TuneCore
Good Bayesian · Baba Brinkman · MC Lars · Mega Ran
The Rap Guide to Consciousness
℗ 2018 Lit Fuse Records
Released on: 2018-04-20
Auto-generated by YouTube.
Good Bayesian · Baba Brinkman · MC Lars · Mega Ran
The Rap Guide to Consciousness
℗ 2018 Lit Fuse Records
Released on: 2018-04-20
Auto-generated by YouTube.
🔥2
На это, кстати, стоит обратить внимание.
У автора, Майкла Френдли, не только крутая фамилия, но и несомненно талант повествователя.
Читал отдельные главы из его "Discrete Data Analysis with R", откуда очень много подчерпнул, а в личном must read списке его предпоследний труд "A History of Data Visualization and Graphic Communication" значится (надеюсь хотя бы к концу года прочту)
У автора, Майкла Френдли, не только крутая фамилия, но и несомненно талант повествователя.
Читал отдельные главы из его "Discrete Data Analysis with R", откуда очень много подчерпнул, а в личном must read списке его предпоследний труд "A History of Data Visualization and Graphic Communication" значится (надеюсь хотя бы к концу года прочту)
❤1
Forwarded from Наука и данные
Visualizing Multivariate Data and Models in R
Michael Friendly закончил работу над книгой Visualizing Multivariate Data and Models in R, которая посвящена графическим методам, разработанным для многомерных данных, и их применению для понимания взаимосвязей, в случае, когда необходимо рассматривать несколько переменных одновременно. В книге подробно рассматриваются связи между статистикой, геометрией и визуализацией данных, помогающими пониманию взаимосвязанных переменных моделей, краткий обзор книги был на канале.
К слову о визуализации данных — после важного обновления ggplot2 до версии 4.0.0 Teun van den Brand написал статью по стилизации, настройке и созданию собственных тем ggplot2. Статья большая — запасайтесь кофе и печеньками. :)
Michael Friendly закончил работу над книгой Visualizing Multivariate Data and Models in R, которая посвящена графическим методам, разработанным для многомерных данных, и их применению для понимания взаимосвязей, в случае, когда необходимо рассматривать несколько переменных одновременно. В книге подробно рассматриваются связи между статистикой, геометрией и визуализацией данных, помогающими пониманию взаимосвязанных переменных моделей, краткий обзор книги был на канале.
К слову о визуализации данных — после важного обновления ggplot2 до версии 4.0.0 Teun van den Brand написал статью по стилизации, настройке и созданию собственных тем ggplot2. Статья большая — запасайтесь кофе и печеньками. :)
🔥2
О, еще одна прикольная объяснялка
https://www.youtube.com/watch?v=VDlnuO96p58
https://www.youtube.com/watch?v=VDlnuO96p58
YouTube
Degrees of Freedom, Actually Explained - The Geometry of Statistics | Ch. 1 (#SoME4)
The most confusing concept in statistics must be degrees of freedom. Students everywhere leave their introductory stats courses totally bewildered about what degrees of freedom means, and why it seems to show up all over the place, such as in the t, chi-square…
❤3🔥3😢2👍1
Forwarded from Maksim Kuznetsov
Неожиданно наткнулся на такое, наверное, интересная штука
https://www.routledge.com/Hybrid-FrequentistBayesian-Power-and-Bayesian-Power-in-Planning-Clinical-Trials/Grieve/p/book/9781032111315?srsltid=AfmBOoqQK6BL8wygY8LBzdVXfmDg89fr47HsaFmLRhgZL4CWwWGfYfJQ
https://www.routledge.com/Hybrid-FrequentistBayesian-Power-and-Bayesian-Power-in-Planning-Clinical-Trials/Grieve/p/book/9781032111315?srsltid=AfmBOoqQK6BL8wygY8LBzdVXfmDg89fr47HsaFmLRhgZL4CWwWGfYfJQ
Routledge & CRC Press
Hybrid Frequentist/Bayesian Power and Bayesian Power in Planning Clinical Trials
Hybrid Frequentist/Bayesian Power and Bayesian Power in Planning Clinical Trials provides a practical introduction to unconditional approaches to planning randomised clinical trials, particularly aimed at drug development in the pharmaceutical industry. This…
❤3