Biostatistics on the Table

Блин, это гениально
https://www.youtube.com/watch?v=uqwC41RDPyg

Calculus Rhapsody
By Phil Kirk & Mike Gospel
(Lyrics below)

We've had this little school project of ours here on YouTube for over 10 years!! It's been so lovely seeing all of your nice comments over the years. We've updated this description to show you what…

137 viewsMaksim Kuznetsov, 09:37

Biostatistics on the Table

тот самый Харди из формулы Харди-Вайнберга

Вообще иногда, очень интересно открывать для себя что-то такое, я вот недавно узнал что Роббинс из книги для школьников* "Что такое математика?" Куранта и Роббинса – это тот же Роббинс, который из формулы Роббинса (то есть по сути основоположник эмпирических байесовских методов).

* тут уж как хотите, можете считать сарказмом, сам я ее пока не осилил 🙂

❤4

128 viewsMaksim Kuznetsov, 10:05

Biostatistics on the Table

Блин, вспомнил с этим Харди-Вайнбергом про свою медицинскую юность. Ностальгия прям. Полез посмотреть, что там сейчас с проектами, где я принимал участие.

Вот наткнулся, аж слезы на глазах )

2015 год, госпиталь Мулаго, Кампала, Уганда
Во втором ряду крайний слева – это я если что )

🔥14❤1👍1

144 viewsMaksim Kuznetsov, edited 12:01

Biostatistics on the Table

1:17

This media is not supported in your browser

VIEW IN TELEGRAM

Здесь я этого почему-то не постил еще, исправляю.
Из курса МакЭлрита

🔥2❤1👍1

133 viewsMaksim Kuznetsov, 15:27

Biostatistics on the Table

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

И еще из закромов. Рубрика "Andrew Gelman says".

"...like Sander Greenland who disagrees with everybody"

😁4❤1

143 viewsMaksim Kuznetsov, 15:45

Biostatistics on the Table

В рекомендациях всплыло.

Если вы все еще думаете, что лекции по статистике – это скучно, то обязательно посмотрите эти выступления Kristin Lennox, она просто потрясающий рассказчик

Everything wrong with statistics (and how to fix it)
All About that Bayes: Probability, Statistics, and the Quest to Quantify Uncertainty

YouTube

Everything wrong with statistics (and how to fix it)

A crisis has emerged across a number of research fields with the discovery that many published results are not reproducible, and applied statistics has been assigned a substantial share of the blame. But if you ask LLNL statistician Kristin Lennox, the problem…

🔥4

167 viewsMaksim Kuznetsov, 11:30

Biostatistics on the Table

Качество не очень, но зато очень "залипательно"
https://www.youtube.com/watch?v=z23-awbMnGs

YouTube

Timeline of Greatest Mathematicians

Source: http://www.fabpedigree.com/james/mathmen.htm

152 viewsMaksim Kuznetsov, 11:53

Biostatistics on the Table

О, на блюскай прикольный проект затеяли

WeRateDAGs

❤4

160 viewsMaksim Kuznetsov, edited 13:13

Biostatistics on the Table

Из The Book of Why

Эту тему мы уже поднимали )

WeRateDAGs запостили

158 viewsMaksim Kuznetsov, edited 15:22

Biostatistics on the Table

В этих постах, на мой взгляд, очень важная тема поднимается.
Там про сверхоптимизм при интерпретации размеров эффекта с очень необычным подходом к проблеме.

123 viewsMaksim Kuznetsov, 12:59

Biostatistics on the Table

Forwarded from Maksim Kuznetsov

Там их 2, наверное, нужно последовательно читать, но я про второй как раз
https://www.linkedin.com/pulse/being-wrong-efficacy-probabilities-stephen-senn/?trackingId=p4y7N%2FJHQQyfLZM7YO9O9Q%3D%3D
https://www.linkedin.com/pulse/its-harder-than-you-think-stephen-senn/?trackingId=p4y7N%2FJHQQyfLZM7YO9O9Q%3D%3D

Being wrong about efficacy probabilities

The Bayesian versus Frequentist confusion is not even the half of it I was rather bemused by a recent discussion of probabilities on Twitter in which it was claimed that the sort of probabilistic statements that Bayesian statistics produces are easier to…

❤3

139 viewsMaksim Kuznetsov, 12:59

Biostatistics on the Table

По следам сегодняшнего обсуждения в чате medstatistic решил сделать что-нибудь полезное.
Это будет ~~байесовская~~ лапласовская версия t-теста Уэлча*.

Почему я решил показать именно это (в смысле t-тест и именно такую его реализацию)? Просто потому что она мне самому кажется эстетически привлекательной. Представьте, люди очень давно могли посчитать на бумажке параметры апостериорного распределения (при строго определенных семействах априорных распределений, которые называются сопряженными с нормальным) для параметров нормального распределения матожидания (μ) и точности (1/σ²), но проблема в том, что это возможно сделать только если известны σ и μ, соответственно, то есть можно сказать это был абсолютно бесполезный навык с практической точки зрения.
Но вот в конце XX века появилась идея сэмплинга Гиббса – такого способа получения выборки из совместного распределения параметров, при котором мы на самом деле производим сэмплинг только из условных распределений. В данном случае, мы можем воспользоваться нашим древним знанием о сопряженных моделях для μ и 1/σ² и сделать очень простой, но при этом крайне эффективный сэмплер (демонстрация того, что это именно так приведена ниже).

* этим вариантом реализации не рекомендую пользоваться, ничего страшного не будет, но есть варианты лучше в смысле жесткости допущений о генеративном процессе

❤1

126 viewsMaksim Kuznetsov, edited 20:02

Biostatistics on the Table

По следам сегодняшнего обсуждения в чате medstatistic решил сделать что-нибудь полезное. Это будет байесовская лапласовская версия t-теста Уэлча*. Почему я решил показать именно это (в смысле t-тест и именно такую его реализацию)? Просто потому что она мне…

Итак, сэмплер Гиббса на основе сопряженных распределений:

normal_gibbs <- function(y, mu_0, tau_0, a, b, n_iter = 10^5) {
    n_obs <- length(y)
    sum_y <- sum(y)
    mu_sample <- tau_sample <- numeric(n_iter)
    
    # assigning starting values
    mu <- mean(y)
    tau <- 1 / var(y)
    
    # Gibbs sampling
    for (i in seq_len(n_iter)) {
        mu <- mu_sample[[i]] <- rnorm(
            n = 1,
            # parameters of conjugate posterior for μ given σ²
            mean = (sum_y * tau + mu_0 * tau_0) / (n_obs * tau + tau_0),
            sd = 1 / sqrt(n_obs * tau + tau_0)
        )
        tau <- tau_sample[[i]] <- rgamma(
            n = 1,
            # parameters of conjugate posterior for precision (1/σ²) given μ 
            shape = a + n_obs / 2,
            rate = b + 1 / 2 * sum((y - mu)^2)
        )
    }
    
    list("mu" = mu_sample, "sd" = sqrt(1/tau_sample))
}

❤1

122 viewsMaksim Kuznetsov, 20:03

Biostatistics on the Table

Итак, сэмплер Гиббса на основе сопряженных распределений: normal_gibbs <- function(y, mu_0, tau_0, a, b, n_iter = 10^5) { n_obs <- length(y) sum_y <- sum(y) mu_sample <- tau_sample <- numeric(n_iter) # assigning starting values mu…

Данные для примера:

set.seed(13799)

group_1 <- rnorm(10, mean = 120, sd = 15)
group_2 <- rnorm(15, mean = 130, sd = 25)

res_1 <- normal_gibbs(
    group_1,
    # parameters for prior for mu
    mu_0 = 100, tau_0 = 1 / (100^2),
    # parameters for prior for tau
    a = 0.01, b = 0.01
)

res_2 <- normal_gibbs(
    group_2,
    # parameters for prior for mu
    mu_0 = 100, tau_0 = 1 / (100^2),
    # parameters for prior for tau
    a = 0.01, b = 0.01
)

❤1

121 viewsMaksim Kuznetsov, 20:04

Biostatistics on the Table

Трейс, все очень ровненько, красивые гусеницы получились и почти нулевая автокорреляция сэмплов

❤1

139 viewsMaksim Kuznetsov, 20:06

Biostatistics on the Table

Апостериорное распределение для разности матожиданий, то есть собственно "t-тест"

❤1

138 viewsMaksim Kuznetsov, edited 20:06

Biostatistics on the Table

Апостериорное распределение для разности матожиданий, то есть собственно "t-тест"

Апостериорное распределение отношения стандартных отклонений, то чего в t-тесте мы точно не получим

❤1

139 viewsMaksim Kuznetsov, 20:07

Biostatistics on the Table

посчитать на бумажке

L10_supp.pdf

66.4 KB

Если кому-то интересно погрузиться поглубже и понять почему в вызовах rnorm() и rgamma() используются именно эти странно выглядящие параметры, то можно почитать этот материал Герберта Ли

❤1

132 viewsMaksim Kuznetsov, 20:35

Biostatistics on the Table

Насколько сэмплинг Гиббса, как и MCMC в целом, могут быть неэффективными? Приведу недавний пример из другого обсуждения. Отмечу только, что здесь, конечно, проблема не только в том, что мы не знаем сопряженных априорных распределений для параметров модели, но и

1) Логистическая регрессия сама по себе несопоставимо более сложная штука по сравнению с линейной регрессией (и t-тестом), особенно в ~~байесовском~~ лапласовском сеттинге.
2) Набор данных – очень сложный, с (почти) полным разделением.

df <- brglm2::endometrial

glm(
    NV ~ EH + HG,
    data = df,
    family = "binomial"
) |>
    broom::tidy()

#> # A tibble: 3 × 5
#>   term        estimate std.error statistic p.value
#>   <chr>          <dbl>     <dbl>     <dbl>   <dbl>
#> 1 (Intercept)   -16.5    2355.    -0.00699  0.994 
#> 2 EH             -2.36      1.28  -1.84     0.0656
#> 3 HG             18.8    2355.     0.00799  0.994

3) Современные люди использовали бы Гамильтоновское Монте-Карло (HMC)
4) Настоящие байесианцы, коим я не являюсь, знают много хакерских приемов и могут сделать на порядки лучше с помощью тонкой настройки параметров сэмплинга и репараметризации модели.

❤1

128 viewsMaksim Kuznetsov, edited 09:04

About

Blog

Apps

Platform