Biostatistics on the Table
Ознакомился с содержанием
Увидел, что есть глава про восполнение пропущенных данных, конечно, сразу захотелось посмотреть, что там.
Думал, наткнусь на всякие безобразия и посоветую не читать ее, но, неожиданно, оказалось не все так плохо. Есть, конечно, что может вызвать негодование (см. скрины), но тем не менее пропустить главу я рекомендовать не буду.
Удивило, что про congeniality assumption и models compatibility в разделе про множественную импутацию даже что-то есть.
Думал, наткнусь на всякие безобразия и посоветую не читать ее, но, неожиданно, оказалось не все так плохо. Есть, конечно, что может вызвать негодование (см. скрины), но тем не менее пропустить главу я рекомендовать не буду.
Удивило, что про congeniality assumption и models compatibility в разделе про множественную импутацию даже что-то есть.
❤1
Интересная объяснялка про раннее видение Нейманом и Фишером причинно-следственного вывода в экспериментах.
Для меня остается загадкой, почему Фишер отвергал* идею (фиксированных) потенциальных исходов, предложенную Нейманом, я просто не понимаю, как можно без них обосновать его идею randomization based inference. Видимо, придется как-нибудь собраться духом и с их оригинальными работами по теме познакомиться.
* личную неприязнь исключаем
https://www.youtube.com/watch?v=rrSduHsH47I
Для меня остается загадкой, почему Фишер отвергал* идею (фиксированных) потенциальных исходов, предложенную Нейманом, я просто не понимаю, как можно без них обосновать его идею randomization based inference. Видимо, придется как-нибудь собраться духом и с их оригинальными работами по теме познакомиться.
* личную неприязнь исключаем
https://www.youtube.com/watch?v=rrSduHsH47I
YouTube
Statistics & Causal Inference: Neyman & Fisher
In this video, EGAP Methods Director and University of Illinois Urbana-Champaign professor Jake Bowers discusses the relationship between statistics and causal inference.
Forwarded from Sinекура
В курсе "Основы байесовского вывода" сегодня лекция про один развёрнутый пример, на мой взгляд, интересный и изрядно неожиданный:
СПбГУ — 2025.09.23 — Байесовский вывод для гауссиана
(слайды, доска и код на странице курса)
Мы уже много раз говорили в курсе о гауссианах, в основном в контексте линейной регрессии. И всё, что мы обсуждали, сводилось к тому, что что с гауссианами ни делай, получаются опять гауссианы. Можно их перемножать, маргинализовать, делать свёртку двух гауссианов, всё равно сумма многочленов второй степени останется многочленом второй степени. Байесовский вывод в линейной регрессии приводит к тому, что наша уверенность в (точечном) ответе уменьшается; но это уменьшение — это увеличение дисперсии в предсказательном распределении, а оно всё равно остаётся гауссианом.
И вот в этом примере оказывается, что не остаётся! Для этого, конечно, пришлось к гауссиану подмешать гамма-распределение как априорное для параметра τ (precision, величина, обратная дисперсии), но как иначе, это же как минимум положительная величина. Выясняется, что если маргинализовать апостериорное распределение по τ, то есть проинтегрировать по τ и оставить только μ, то его апостериорное распределение уже вовсе не будет гауссианом, а будет... распределением Стьюдента! Это, по-моему, очень интересный результат: не просто дисперсия увеличивается при байесовском выводе, а буквально меняется форма распределения; затухающий экспоненциально гауссиан превращается в распределение с тяжёлыми, полиномиальными хвостами. И это очень легко проверить на практике, мы это в численном примере на лекции увидели.
Кстати, здесь есть интересная историческая деталь: распределение Стьюдента начал рассматривать вовсе не Уильям Госсет, а совсем другие люди лет на двадцать раньше. Ещё в 1870-х годах немецкие математики Фридрих Хельмерт и Якоб Люрот занимались байесовским выводом и получили распределение Стьюдента именно как предсказательное распределение для гауссиана. Везде байесианисты!)
СПбГУ — 2025.09.23 — Байесовский вывод для гауссиана
(слайды, доска и код на странице курса)
Мы уже много раз говорили в курсе о гауссианах, в основном в контексте линейной регрессии. И всё, что мы обсуждали, сводилось к тому, что что с гауссианами ни делай, получаются опять гауссианы. Можно их перемножать, маргинализовать, делать свёртку двух гауссианов, всё равно сумма многочленов второй степени останется многочленом второй степени. Байесовский вывод в линейной регрессии приводит к тому, что наша уверенность в (точечном) ответе уменьшается; но это уменьшение — это увеличение дисперсии в предсказательном распределении, а оно всё равно остаётся гауссианом.
И вот в этом примере оказывается, что не остаётся! Для этого, конечно, пришлось к гауссиану подмешать гамма-распределение как априорное для параметра τ (precision, величина, обратная дисперсии), но как иначе, это же как минимум положительная величина. Выясняется, что если маргинализовать апостериорное распределение по τ, то есть проинтегрировать по τ и оставить только μ, то его апостериорное распределение уже вовсе не будет гауссианом, а будет... распределением Стьюдента! Это, по-моему, очень интересный результат: не просто дисперсия увеличивается при байесовском выводе, а буквально меняется форма распределения; затухающий экспоненциально гауссиан превращается в распределение с тяжёлыми, полиномиальными хвостами. И это очень легко проверить на практике, мы это в численном примере на лекции увидели.
Кстати, здесь есть интересная историческая деталь: распределение Стьюдента начал рассматривать вовсе не Уильям Госсет, а совсем другие люди лет на двадцать раньше. Ещё в 1870-х годах немецкие математики Фридрих Хельмерт и Якоб Люрот занимались байесовским выводом и получили распределение Стьюдента именно как предсказательное распределение для гауссиана. Везде байесианисты!)
С помощью марковских цепей Монте-Карло (MCMC) — группы методов, к которой относится и сэмплинг Гиббса, — можно, оказывается, аппроксимировать картинки 🙂
Немного неожиданное применение, хотя тот же сэмплинг Гиббса, например, изначально появился именно при решении задач улучшения качества изображений. Статистики тоже занимались им, но опубликовались позже компьютер-сайентистов.
Немного неожиданное применение, хотя тот же сэмплинг Гиббса, например, изначально появился именно при решении задач улучшения качества изображений. Статистики тоже занимались им, но опубликовались позже компьютер-сайентистов.
❤2
Biostatistics on the Table
С помощью марковских цепей Монте-Карло (MCMC) — группы методов, к которой относится и сэмплинг Гиббса, — можно, оказывается, аппроксимировать картинки 🙂 Немного неожиданное применение, хотя тот же сэмплинг Гиббса, например, изначально появился именно при решении…
У Meerkat Statistics есть серия видео про MCMC. Там все очень математично, но мне показалось, что он хорошо общие идеи, стоящие за методами, формулирует и полезно будет посмотреть даже не сильно углубляясь в технические детали.
❤3
Biostatistics on the Table
С помощью марковских цепей Монте-Карло (MCMC) — группы методов, к которой относится и сэмплинг Гиббса, — можно, оказывается, аппроксимировать картинки 🙂 Немного неожиданное применение, хотя тот же сэмплинг Гиббса, например, изначально появился именно при решении…
Пытаюсь аппроксимировать себя, в связи с чем стоит поделиться этим мемом, конечно
❤5
Biostatistics on the Table
Пытаюсь аппроксимировать себя
Оказалось, что это может быть и познавательно очень. Видимо моя фотка имеет слишком сложную геометрию для данного сэмплера, цепь блуждает в основном в области почти черного фона.
Итак, 4 часа, 100000* итераций
* столько же, сколько в примерах с t-тестом и логистической регрессией было, только там речь шла не более чем о секундах
Как появятся 4 свободных часа таймлапс думаю сделать
есть пакет в R
* столько же, сколько в примерах с t-тестом и логистической регрессией было, только там речь шла не более чем о секундах
Как появятся 4 свободных часа таймлапс думаю сделать
есть пакет в R
❤4
Meerkat Statistics выпустил видео, с которого, видимо, можно начать подготовку к прочтению дипломной работы Матвея )
И вот еще, Copula Modeling for Clinical Trials, все хотел почитать, но побаивался
И вот еще, Copula Modeling for Clinical Trials, все хотел почитать, но побаивался
YouTube
Copulas 1: A Gentle Introduction
Play with the Fréchet-Hoeffding bounds: https://www.geogebra.org/3d/xwte4ufb
Outline:
* Animation: Misconception about correlation
* Usage of copulas
* Misuse of copulas (the 2007-2009 financial crisis)
* CDF / PIT Transformation
* Sklar's theorem
* Example…
Outline:
* Animation: Misconception about correlation
* Usage of copulas
* Misuse of copulas (the 2007-2009 financial crisis)
* CDF / PIT Transformation
* Sklar's theorem
* Example…
❤3
Еще от Сергея Николенко, наверное, интересная лекция
Forwarded from Sinекура
В курсе "Технологии и фронтиры науки о данных" в ЮФУ на этот раз уже закончили с историей вопроса и перешли (thank God) к содержательной части:
ЮФУ — 2025.10.30 — Вероятностные основы машинного обучения
(слайды и доска на странице курса)
К этой части я приступал с некоторым трепетом, потому что, как вы понимаете, в популярных лекциях для первокурсников нельзя предполагать, что у студентов уже были курсы теорвера и матстатистики. Но вроде бы всё не так плохо, теорвер нынче в школе так или иначе проходят, и студенты в чате отвечали на мои вопросы достаточно бодро, хоть частенько и неправильно. :)
В общем, первая вероятностная лекция прошла в воспоминаниях о том, что такое вероятность, что такой байесовский взгляд на вероятности, а также в обсуждении вероятностных примеров, которые я обычно вспоминаю: ошибки прокурора и адвоката, пример Монти Холла (парадоксом его язык не очень поворачивается назвать), парадокс Спящей красавицы (а вот тут и правда есть о чём порассуждать).
В следующий раз попробую всё-таки рассказать о том, как обучать монетку, а то и о линейной регрессии. Надеюсь, прокатит.)
ЮФУ — 2025.10.30 — Вероятностные основы машинного обучения
(слайды и доска на странице курса)
К этой части я приступал с некоторым трепетом, потому что, как вы понимаете, в популярных лекциях для первокурсников нельзя предполагать, что у студентов уже были курсы теорвера и матстатистики. Но вроде бы всё не так плохо, теорвер нынче в школе так или иначе проходят, и студенты в чате отвечали на мои вопросы достаточно бодро, хоть частенько и неправильно. :)
В общем, первая вероятностная лекция прошла в воспоминаниях о том, что такое вероятность, что такой байесовский взгляд на вероятности, а также в обсуждении вероятностных примеров, которые я обычно вспоминаю: ошибки прокурора и адвоката, пример Монти Холла (парадоксом его язык не очень поворачивается назвать), парадокс Спящей красавицы (а вот тут и правда есть о чём порассуждать).
В следующий раз попробую всё-таки рассказать о том, как обучать монетку, а то и о линейной регрессии. Надеюсь, прокатит.)
Forwarded from Matt
Да, хороший видос. Единственное: прелесть теоремы Скляра состоит в том, что ассоциированная копула не просто существует всегда, она ещё и единственная (если мы говорим про непрерывные распределения; в распределениях с атомами начинаются проблемы, об этом во второй части диплома).
Forwarded from Наука и данные
genzplyr — СленгR 😀
Юмор от Hadley Wickham'а останется в учебниках! Шутки ради он выпустил "альтернативную версию" для dplyr — библиотеку genzplyr. Здесь "глаголы" dplyr написаны в духе GenZ — поколения Z-сленга. Например:
превращается в
Мне особенно понравились функции
Зачем это нужно? По мнению классика:
Юмор от Hadley Wickham'а останется в учебниках! Шутки ради он выпустил "альтернативную версию" для dplyr — библиотеку genzplyr. Здесь "глаголы" dplyr написаны в духе GenZ — поколения Z-сленга. Например:
mtcars |>
filter(mpg > 20) |>
select(mpg, cyl, hp) |>
mutate(kpg = mpg * 1.6) |>
arrange(desc(mpg))
превращается в
mtcars |>
yeet(mpg > 20) |>
vibe_check(mpg, cyl, hp) |>
glow_up(kpg = mpg * 1.6) |>
slay(desc(mpg))
Мне особенно понравились функции
vibe_check() и send_it().Зачем это нужно? По мнению классика:
Потому что наука о данных должна быть увлекательной, а ваш код должен отражать вашу индивидуальность. А еще вообразите себе выражение лица вашего профессора, когда вы представите ему код, использующийyeet()иsquad_up()!
😁2🤡1
Forwarded from RSS bot
What intro stats textbook to use?
https://statmodeling.stat.columbia.edu/2025/11/09/what-intro-stats-textbook-to-use/
https://statmodeling.stat.columbia.edu/2025/11/09/what-intro-stats-textbook-to-use/
Biostatistics on the Table
Все тщетно
При этом, конечно, существует лучшая post-introductory statistics textbook.
Это Statistical Rethinking самого МакЭлрита.
Это Statistical Rethinking самого МакЭлрита.
😁5
Biostatistics on the Table
При этом, конечно, существует лучшая post-introductory statistics textbook. Это Statistical Rethinking самого МакЭлрита.
Ну и полезное, надеюсь
Я бы очень хотел, чтобы моими introductory statistics textbooks были:
1) Statistics for Ecologists (не уверен, что все будут согласны, что она такая уж интродактари)
2) Telling Stories with Data (не совсем статистикс, но у Гелмана в рекомендациях она тоже присутствует)
Я бы очень хотел, чтобы моими introductory statistics textbooks были:
1) Statistics for Ecologists (не уверен, что все будут согласны, что она такая уж интродактари)
2) Telling Stories with Data (не совсем статистикс, но у Гелмана в рекомендациях она тоже присутствует)
Tellingstorieswithdata
Telling Stories with Data
🔥1