Biostatistics on the Table
Позволю себе начать издалека. Прикладная статистика – это область, глубоко погруженная в контекст, который ее окружает. Часто трудно провести границу между самой предметной областью и статистикой, а еще сложнее – между статистикой и эпистемологией. Поэтому…
Теперь о статистике.
Я хочу выделить две книги, которые хорошо помогают сформировать правильный «статистический майндсет». Участвуя в многочисленных биостатистических дискуссиях, в основном с медиками, я понял, что главная сложность в освоении прикладной статистики вовсе не в формулах. Сложнее всего понять, о чем эта наука: как статистики и аналитики данных смотрят на устройство мира, как предметные вопросы переводятся в вопросы, на которые можно ответить с помощью данных, какие выводы и утверждения можно делать с использованием ее инструментов.
Мне очень понравилось замечание Энди Грива в одном из обсуждений о преподавании статистики: существует два разных вопроса – «What p-value is» и «What p-value means». Ответить на первый можно в паре предложений, но вот со вторым, куда более важным, все гораздо сложнее.
«Искусство статистики» Дэвида Шпигельхалтера
Наверное, лучшее, что можно порекомендовать людям, которые только начинают знакомство со статистикой. Здесь нет избыточных упрощений, которые искажают суть концепций (и которыми очень часто злоупотребляют). Думаю, что эта книга, если и не может заменить учебники типа «статистика длякотиков нестатистиков», то точно должна им предшествовать, чтобы после их прочтения не сформировалось очень опасного ощущения полного понимания.
Я пока не успел подробно ознакомиться с новой книгой Шпигельхалтера «The Art of Uncertainty», но предполагаю, что ее место тоже здесь. Постараюсь в ближайшее время исправить это и поделиться своими впечатлениями.
«Dicing with Death: Chance, Risk and Health» Стефена Сенна
Эта книга вряд ли подойдет людям, которые совсем далеки от статистики, несмотря на то, что несомненно является научно-популярной. Она поможет раскрыть и посмотреть под другим углом на многие вещи, которые мы применяем при анализе данных. Я не являюсь поклонником составления рейтингов, но если бы мне пришлось, то эта книга совершенно точно была бы в тройке самых важных и полезных лично для меня книг. Кстати, не так давно вышло третье издание, которое было дополнено, в том числе, разделами, связанными с Covid-19.
Я хочу выделить две книги, которые хорошо помогают сформировать правильный «статистический майндсет». Участвуя в многочисленных биостатистических дискуссиях, в основном с медиками, я понял, что главная сложность в освоении прикладной статистики вовсе не в формулах. Сложнее всего понять, о чем эта наука: как статистики и аналитики данных смотрят на устройство мира, как предметные вопросы переводятся в вопросы, на которые можно ответить с помощью данных, какие выводы и утверждения можно делать с использованием ее инструментов.
Мне очень понравилось замечание Энди Грива в одном из обсуждений о преподавании статистики: существует два разных вопроса – «What p-value is» и «What p-value means». Ответить на первый можно в паре предложений, но вот со вторым, куда более важным, все гораздо сложнее.
«Искусство статистики» Дэвида Шпигельхалтера
Наверное, лучшее, что можно порекомендовать людям, которые только начинают знакомство со статистикой. Здесь нет избыточных упрощений, которые искажают суть концепций (и которыми очень часто злоупотребляют). Думаю, что эта книга, если и не может заменить учебники типа «статистика для
Я пока не успел подробно ознакомиться с новой книгой Шпигельхалтера «The Art of Uncertainty», но предполагаю, что ее место тоже здесь. Постараюсь в ближайшее время исправить это и поделиться своими впечатлениями.
«Dicing with Death: Chance, Risk and Health» Стефена Сенна
Эта книга вряд ли подойдет людям, которые совсем далеки от статистики, несмотря на то, что несомненно является научно-популярной. Она поможет раскрыть и посмотреть под другим углом на многие вещи, которые мы применяем при анализе данных. Я не являюсь поклонником составления рейтингов, но если бы мне пришлось, то эта книга совершенно точно была бы в тройке самых важных и полезных лично для меня книг. Кстати, не так давно вышло третье издание, которое было дополнено, в том числе, разделами, связанными с Covid-19.
❤7👍1
Biostatistics on the Table
Теперь о статистике. Я хочу выделить две книги, которые хорошо помогают сформировать правильный «статистический майндсет». Участвуя в многочисленных биостатистических дискуссиях, в основном с медиками, я понял, что главная сложность в освоении прикладной статистики…
Далее – список научно-популярных книг по отдельным темам статистики и анализа данных, которые я уверенно рекомендую к прочтению.
«The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century» Дэвида Зальцбурга
Лучшее введение в историю статистики, очень увлекательное чтение. При этом Зальцбург не избегает обсуждения и самих статистических концепций, но делает это без пошлых упрощений. Стоит сказать, что автор этой книги является биостатистиком как с опытом работы в индустрии, так и в преподавании, но самое ценное – он был лично знаком и поддерживал общение со многими героями своего повествования. Эту книгу важно прочитать и тем, кто дальше хочет погружаться в историю статистики глубже, поскольку она дает хорошее представление о ландшафте, в котором происходят все действия, потом уже можно переходить к Стиглеру, Леманну и Рейд.
«The Book of Why» Джуды Перла и Дана Маккензи
(вышел перевод этой книги на русский язык под названием «Думай почему?», но я не уверен в его качестве)
Одна из тех книг, которая способна изменить представление о многом, что касается научных исследований, а ее автор Джуда Перл – один из тех людей, которые буквально на наших глазах совершают революцию в решении задач о причинах и следствиях. В отличие от других представленных здесь книг, эту книгу можно рассматривать и как дружелюбное введение в причинно-следственный вывод.
«Dark Data: Why What You Don’t Know Matters» Дэвида Хэнда
(есть качественный перевод на русский язык под названием «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»)
Вообще удивительно, что существует научно-популярная литература по такой концептуально и технически сложной области статистики. Но не следует обольщаться (особенно глядя на русскоязычное название): эта книга не заменит Рубина и Литтла, более того, вряд ли даже поможет подготовиться к прочтению серьезной литературы по теме. Тем не менее, она даст неплохое представление о том, когда и, самое главное, почему возникают проблемы из-за пропущенных значений. Стоит добавить несколько слов об авторе: Дэвид Хэнд, как и Шпигельхалтер, был президентом Королевского статистического общества, то есть на своем посту был преемником таких людей, как Рональд Фишер, Остин Бредфорд-Хилл и Дэвид Кокс.
«The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century» Дэвида Зальцбурга
Лучшее введение в историю статистики, очень увлекательное чтение. При этом Зальцбург не избегает обсуждения и самих статистических концепций, но делает это без пошлых упрощений. Стоит сказать, что автор этой книги является биостатистиком как с опытом работы в индустрии, так и в преподавании, но самое ценное – он был лично знаком и поддерживал общение со многими героями своего повествования. Эту книгу важно прочитать и тем, кто дальше хочет погружаться в историю статистики глубже, поскольку она дает хорошее представление о ландшафте, в котором происходят все действия, потом уже можно переходить к Стиглеру, Леманну и Рейд.
«The Book of Why» Джуды Перла и Дана Маккензи
(вышел перевод этой книги на русский язык под названием «Думай почему?», но я не уверен в его качестве)
Одна из тех книг, которая способна изменить представление о многом, что касается научных исследований, а ее автор Джуда Перл – один из тех людей, которые буквально на наших глазах совершают революцию в решении задач о причинах и следствиях. В отличие от других представленных здесь книг, эту книгу можно рассматривать и как дружелюбное введение в причинно-следственный вывод.
«Dark Data: Why What You Don’t Know Matters» Дэвида Хэнда
(есть качественный перевод на русский язык под названием «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»)
Вообще удивительно, что существует научно-популярная литература по такой концептуально и технически сложной области статистики. Но не следует обольщаться (особенно глядя на русскоязычное название): эта книга не заменит Рубина и Литтла, более того, вряд ли даже поможет подготовиться к прочтению серьезной литературы по теме. Тем не менее, она даст неплохое представление о том, когда и, самое главное, почему возникают проблемы из-за пропущенных значений. Стоит добавить несколько слов об авторе: Дэвид Хэнд, как и Шпигельхалтер, был президентом Королевского статистического общества, то есть на своем посту был преемником таких людей, как Рональд Фишер, Остин Бредфорд-Хилл и Дэвид Кокс.
❤9👍1
Biostatistics on the Table
Далее – список научно-популярных книг по отдельным темам статистики и анализа данных, которые я уверенно рекомендую к прочтению. «The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century» Дэвида Зальцбурга Лучшее введение в историю…
И напоследок – две книги о байесовском выводе.
«The Theory That Would Not Die» Шерон МакГрейн
Увлекательная история: от Байеса, Ричарда Прайса и Лапласа до критики и забвения в первой половине XX века, и последующего возрождения байесовского вывода, в том числе, в решении военных, медицинских и лингвистических задач.
«Bernoulli’s Fallacy» Обри Клэйтона
Единственная книга в списке, которую не совсем правильно называть научно-популярной. Это скорее человечное изложение идей Джеффриса и Джейнса (у автора, кстати, есть курс лекций по книге Джейнса «Probability Theory: The Logic of Science»). Книга – радикальная критика всех, кто был связан с развитием частотной интерпретации вероятности и фриквентизма как основы статистического вывода: от Бернулли и английских логиков XIX века до, конечно, Фишера и Неймана. Но при этом она читается на одном дыхании, кроме того, в ней масса занимательных исторических деталей.
«The Theory That Would Not Die» Шерон МакГрейн
Увлекательная история: от Байеса, Ричарда Прайса и Лапласа до критики и забвения в первой половине XX века, и последующего возрождения байесовского вывода, в том числе, в решении военных, медицинских и лингвистических задач.
«Bernoulli’s Fallacy» Обри Клэйтона
Единственная книга в списке, которую не совсем правильно называть научно-популярной. Это скорее человечное изложение идей Джеффриса и Джейнса (у автора, кстати, есть курс лекций по книге Джейнса «Probability Theory: The Logic of Science»). Книга – радикальная критика всех, кто был связан с развитием частотной интерпретации вероятности и фриквентизма как основы статистического вывода: от Бернулли и английских логиков XIX века до, конечно, Фишера и Неймана. Но при этом она читается на одном дыхании, кроме того, в ней масса занимательных исторических деталей.
❤7🔥3
Кстати, о книгах. Решил устроить себе семестр линала и приобрел для этого книгу. Она кажется довольно серьезной, хотя больше сосредоточена на коде и интуиции, чем на чистой математике (для восполнения этого пробела начал Гилберта Стрэнга читать).
🔥4👍2👏1
Biostatistics on the Table
Кстати, о книгах. Решил устроить себе семестр линала и приобрел для этого книгу. Она кажется довольно серьезной, хотя больше сосредоточена на коде и интуиции, чем на чистой математике (для восполнения этого пробела начал Гилберта Стрэнга читать).
А теперь самое интересное ...
😁4🔥3👏2
Наткнулся на отличное (понятное) объяснение, как часто говорят, самого странного результата во всей статистике – парадокса Штейна.
Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по этому поводу можно почитать статьи Брэдли Эфрона, но они уже сложные).
https://www.youtube.com/watch?v=FUQwijSDzg8
Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по этому поводу можно почитать статьи Брэдли Эфрона, но они уже сложные).
https://www.youtube.com/watch?v=FUQwijSDzg8
YouTube
The Stein Paradox - Numberphile
Professor Chris Oates discusses one of the most puzzling paradoxes in statistics. Extra footage: https://youtu.be/Z1-OH1ji8fU -- More links & stuff in full description below ↓↓↓
More from the Leverhulme Trust at: https://www.leverhulme.ac.uk (episode supporter)…
More from the Leverhulme Trust at: https://www.leverhulme.ac.uk (episode supporter)…
❤2
Biostatistics on the Table
Наткнулся на отличное (понятное) объяснение, как часто говорят, самого странного результата во всей статистике – парадокса Штейна. Это, кстати, штука, в которой все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод (по…
Кому хочется погрузиться поглубже в эту тему, могу порекомендовать эту заметку:
https://www.econometrics.blog/post/not-quite-the-james-stein-estimator/
и это видео:
https://www.youtube.com/watch?v=cUqoHQDinCM
https://www.econometrics.blog/post/not-quite-the-james-stein-estimator/
и это видео:
https://www.youtube.com/watch?v=cUqoHQDinCM
www.econometrics.blog
Not Quite the James-Stein Estimator – econometrics.blog
❤3
Biostatistics on the Table
где все сходится в одну точку, оценивание и машинное обучение, частотнический и байесовкий вывод
Хотя, подумал, что можно попробовать вкратце описать в чем там связь (по-крайней мере, как я это понял).
1) с машинным обучением просто, результат касается того, что сейчас называют bias-variance trade-off (компоромисс между (не)смещенноcтью и эффективностью, в общем центральная тема в машинном обучение) и регуляризации (не дать данным говорить о себе слишком громко, чтобы минимизировать риск переобучения, здесь прежде всего связь с т.н. L2-регуляризацией и ridge-регрессией)
2) с байесовской статистикой можно подойти с двух сторон: эстиматор, предложенный Джеймсом и Штейном (JS) был предложен в рамках характеристики именно фриквентистских свойств, но его же можно рассматривать и с позиции эмпирических байесовских эстиматоров, это когда нам нужно получить много разных, но при этом похожих оценок и мы используем эмпирическое распределение этих оценок (скажем оценок максимального правдоподобия), чтобы "подкорректировать" каждую отдельную из них, то есть получается, что значение каждой отдельной оценки как бы "информируется" другими, такой же эффект наблюдается и при использовании JS (здесь стоит обратить внимание на знаменатель корректирующего множителя); с другой стороны, если вернуться к регуляризации, то L1- и L2-штрафы можно ввести с помощью априорных распределений на коэффициентах (двойное экспоненциальное и нормальное распределение, соответственно, причем между параметрами именно этих распределений и гиперпараметрами LASSO и ridge-регрессии есть прямая взаимосвязь), то есть схема такая получается: JS эстиматор -> L2-регуляризация <- нормальные априорные распределения на коэффициентах
1) с машинным обучением просто, результат касается того, что сейчас называют bias-variance trade-off (компоромисс между (не)смещенноcтью и эффективностью, в общем центральная тема в машинном обучение) и регуляризации (не дать данным говорить о себе слишком громко, чтобы минимизировать риск переобучения, здесь прежде всего связь с т.н. L2-регуляризацией и ridge-регрессией)
2) с байесовской статистикой можно подойти с двух сторон: эстиматор, предложенный Джеймсом и Штейном (JS) был предложен в рамках характеристики именно фриквентистских свойств, но его же можно рассматривать и с позиции эмпирических байесовских эстиматоров, это когда нам нужно получить много разных, но при этом похожих оценок и мы используем эмпирическое распределение этих оценок (скажем оценок максимального правдоподобия), чтобы "подкорректировать" каждую отдельную из них, то есть получается, что значение каждой отдельной оценки как бы "информируется" другими, такой же эффект наблюдается и при использовании JS (здесь стоит обратить внимание на знаменатель корректирующего множителя); с другой стороны, если вернуться к регуляризации, то L1- и L2-штрафы можно ввести с помощью априорных распределений на коэффициентах (двойное экспоненциальное и нормальное распределение, соответственно, причем между параметрами именно этих распределений и гиперпараметрами LASSO и ridge-регрессии есть прямая взаимосвязь), то есть схема такая получается: JS эстиматор -> L2-регуляризация <- нормальные априорные распределения на коэффициентах
Biostatistics on the Table
Второй раз сталкиваюсь с таким, в прошлый раз в категорию "Made for kids" попала какая-то лекция Андрю Гелмана, сейчас вот про EM-алгоритм
На всякий случай, вдруг кому-то понадобится. Вменяемые материалы по анализу неполных данных очень сложно найти (но есть достаточно много невменяемых, к сожалению)
- Семинары Craig Enders в Nebraska Center for Research on Children, Youth, Families and Schools (2015): часть 1, часть 2
- Multiple Imputation in Practice от Trivellore Raghunathan (2022): часть 1, часть 2, часть 3, часть 4
- Курс «Missing Data Methods» от Jonathan Templin (2025) по книге Craig Enders «Applied Missing Data Analysis», но с использованием R
- И тот курс, который для детей, по книге Little, Rubin «Statistical Analysis with Missing Data», видимо, очень стоящий
стоит еще обратить внимание на лекции по отдельным темам от Rod Little и James Carpenter на YouTube
- Семинары Craig Enders в Nebraska Center for Research on Children, Youth, Families and Schools (2015): часть 1, часть 2
- Multiple Imputation in Practice от Trivellore Raghunathan (2022): часть 1, часть 2, часть 3, часть 4
- Курс «Missing Data Methods» от Jonathan Templin (2025) по книге Craig Enders «Applied Missing Data Analysis», но с использованием R
- И тот курс, который для детей, по книге Little, Rubin «Statistical Analysis with Missing Data», видимо, очень стоящий
стоит еще обратить внимание на лекции по отдельным темам от Rod Little и James Carpenter на YouTube
YouTube
Multiple Imputation in Practice (July 2022) Part 1
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
❤9🔥3
Biostatistics on the Table
но есть достаточно много невменяемых, к сожалению
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
❤1
Biostatistics on the Table
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
То, что восполнение средними (медианами, модами) – sucky метод это правда, это самый плохой подход даже среди самых плохих подходов. Пожалуйста, никогда его не используйте, вообще все что угодно другое будет лучше.
Вот он пишет, что работает только при MCAR (missing completely at random, то есть буквально смотрим на ячейку в таблице подбрасываем (смещенную) монетку и если выпадет орел нажимаем Delete).
Пример для этого типа восполнения выделен мной справа. Можете ради интереса подумать (или поэкспериментировать), что будет происходить с регрессионной линией если часть значений по Y или по X будут MCAR и мы эти пропуски восполним средним (медианой, модой), даже если данных очень много.
Восполнение средним будет приводить к несмещенной оценке матоджидания при MCAR – это да, но при MCAR оценка матоджидания будет несмещенной и при анализе только полных случаев (мы ведь оттуда восполняем), но что будет с оценкой стандарной ошибки среднего, что будет с оценкой дисперсии/стандартного отклонения и вообще любой ассоциации с участием этой переменной?
Вот он пишет, что работает только при MCAR (missing completely at random, то есть буквально смотрим на ячейку в таблице подбрасываем (смещенную) монетку и если выпадет орел нажимаем Delete).
Пример для этого типа восполнения выделен мной справа. Можете ради интереса подумать (или поэкспериментировать), что будет происходить с регрессионной линией если часть значений по Y или по X будут MCAR и мы эти пропуски восполним средним (медианой, модой), даже если данных очень много.
Восполнение средним будет приводить к несмещенной оценке матоджидания при MCAR – это да, но при MCAR оценка матоджидания будет несмещенной и при анализе только полных случаев (мы ведь оттуда восполняем), но что будет с оценкой стандарной ошибки среднего, что будет с оценкой дисперсии/стандартного отклонения и вообще любой ассоциации с участием этой переменной?
❤3👍2🔥1
Biostatistics on the Table
И сразу в рекомендациях на ютубе всплыло (канал, кстати, в целом неплохой)
Есть еще часто встречающийся "грешок" – в некоторых материалах на тему начинают рассуждать "стоит ли в модель импутации пропусков значений предиктора вносить изучаемый исход?".
Если увидите такое, знайте, этому материалу скорее всего нельзя доверять (по-крайней мере в плане раздела по пропускам), среди людей, которые специализируются на этой теме такого вопроса никогда не стояло, то есть всегда и всем было очевидно, что да, обязательно нужно (если этого не сделать, то оценка "эффекта" в субстантивной модели будет смещенной в сторону нуля).
Если увидите такое, знайте, этому материалу скорее всего нельзя доверять (по-крайней мере в плане раздела по пропускам), среди людей, которые специализируются на этой теме такого вопроса никогда не стояло, то есть всегда и всем было очевидно, что да, обязательно нужно (если этого не сделать, то оценка "эффекта" в субстантивной модели будет смещенной в сторону нуля).
👍3
Ой, выход нового выступления Гелмана – всегда радость, только что-то выглядит он слишком серьезным
https://www.youtube.com/watch?v=aNjUIP1p1HM
https://www.youtube.com/watch?v=aNjUIP1p1HM
YouTube
Andrew Gelman - What's Going On In There? Bayesian Tools for Understanding a Fitted Model
For information on upcoming conferences, visit https://www.dataconf.ai.
What's Going On In There? Bayesian Tools for Understanding a Fitted Model by Andrew Gelman
Abstract: A fitted model is a mapping from data (including information encoded in the model…
What's Going On In There? Bayesian Tools for Understanding a Fitted Model by Andrew Gelman
Abstract: A fitted model is a mapping from data (including information encoded in the model…
❤5
Смотрите на что наткнулся, не терпится почитать
The Epic Story of Maximum Likelihood (Стиглер*)
* тот самый Стиглер из закона эпонимии, который применим к самому себе
The Epic Story of Maximum Likelihood (Стиглер*)
* тот самый Стиглер из закона эпонимии, который применим к самому себе
❤2
Biostatistics on the Table
Стиглер
А, ну да, забыл совсем, название канала было у него позаимствовано )
❤7👍1🔥1
Прикольное объяснение.
Обобщения, особенно, неожиданные (например, как в конце этого видео), должны приносить удовольствие
https://www.youtube.com/watch?v=hFhTteox_HM
Обобщения, особенно, неожиданные (например, как в конце этого видео), должны приносить удовольствие
https://www.youtube.com/watch?v=hFhTteox_HM
YouTube
Every Type of Mean Explained in 1 Formula
We explore how the arithmetic, harmonic, and geometric means can all be expressed using a more general formula.
Further reading:
https://en.wikipedia.org/wiki/Quasi-arithmetic_mean
00:00 Intro
00:26 Arithmetic mean
01:15 Harmonic mean
03:58 Geometric mean…
Further reading:
https://en.wikipedia.org/wiki/Quasi-arithmetic_mean
00:00 Intro
00:26 Arithmetic mean
01:15 Harmonic mean
03:58 Geometric mean…
❤2