Biostatistics on the Table

Трейс, все очень ровненько, красивые гусеницы получились и почти нулевая автокорреляция сэмплов

❤1

139 viewsMaksim Kuznetsov, 20:06

Biostatistics on the Table

Апостериорное распределение для разности матожиданий, то есть собственно "t-тест"

❤1

138 viewsMaksim Kuznetsov, edited 20:06

Biostatistics on the Table

Апостериорное распределение для разности матожиданий, то есть собственно "t-тест"

Апостериорное распределение отношения стандартных отклонений, то чего в t-тесте мы точно не получим

❤1

139 viewsMaksim Kuznetsov, 20:07

Biostatistics on the Table

посчитать на бумажке

L10_supp.pdf

66.4 KB

Если кому-то интересно погрузиться поглубже и понять почему в вызовах rnorm() и rgamma() используются именно эти странно выглядящие параметры, то можно почитать этот материал Герберта Ли

❤1

132 viewsMaksim Kuznetsov, 20:35

Biostatistics on the Table

Насколько сэмплинг Гиббса, как и MCMC в целом, могут быть неэффективными? Приведу недавний пример из другого обсуждения. Отмечу только, что здесь, конечно, проблема не только в том, что мы не знаем сопряженных априорных распределений для параметров модели, но и

1) Логистическая регрессия сама по себе несопоставимо более сложная штука по сравнению с линейной регрессией (и t-тестом), особенно в ~~байесовском~~ лапласовском сеттинге.
2) Набор данных – очень сложный, с (почти) полным разделением.

df <- brglm2::endometrial

glm(
    NV ~ EH + HG,
    data = df,
    family = "binomial"
) |>
    broom::tidy()

#> # A tibble: 3 × 5
#>   term        estimate std.error statistic p.value
#>   <chr>          <dbl>     <dbl>     <dbl>   <dbl>
#> 1 (Intercept)   -16.5    2355.    -0.00699  0.994 
#> 2 EH             -2.36      1.28  -1.84     0.0656
#> 3 HG             18.8    2355.     0.00799  0.994

3) Современные люди использовали бы Гамильтоновское Монте-Карло (HMC)
4) Настоящие байесианцы, коим я не являюсь, знают много хакерских приемов и могут сделать на порядки лучше с помощью тонкой настройки параметров сэмплинга и репараметризации модели.

❤1

128 viewsMaksim Kuznetsov, edited 09:04

Biostatistics on the Table

Пример:

df <- brglm2::endometrial
set.seed(525243)

fit <- MCMCglmm::MCMCglmm(
    NV ~ EH + HG,
    family = "categorical",
    data = df,
    prior = list(
        B = list(
            mu = rep(0, 3),
            V = MCMCglmm::gelman.prior(
                ~ EH + HG, 
                data = df, 
                scale = sqrt(pi^2/3+1)
            )
        ),
        R = list(V = 1, fix = 1)
    ),
    nitt = 100000,
    burnin = 1000,
    thin = 10,
    verbose = FALSE
)

summary(fit)
#> 
#>  Iterations = 1001:99991
#>  Thinning interval  = 10
#>  Sample size  = 9900 
#> 
#>  DIC: 42.77461 
#> 
#>  R-structure:  ~units
#> 
#>       post.mean l-95% CI u-95% CI eff.samp
#> units         1        1        1        0
#> 
#>  Location effects: NV ~ EH + HG 
#> 
#>             post.mean l-95% CI u-95% CI eff.samp   pMCMC   
#> (Intercept)   -1.3239  -4.6634   1.8131   1430.6 0.43071   
#> EH            -1.8184  -3.4936  -0.1290    987.7 0.03131 * 
#> HG             2.9383   0.8804   5.1687    733.0 0.00182 **
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

❤1

126 viewsMaksim Kuznetsov, 09:06

Biostatistics on the Table

Пример: df <- brglm2::endometrial set.seed(525243) fit <- MCMCglmm::MCMCglmm( NV ~ EH + HG, family = "categorical", data = df, prior = list( B = list( mu = rep(0, 3), V = MCMCglmm::gelman.prior( …

На что здесь следует обратить внимание: в примере с t-тестом мы сделали 2 раза сэмплинг по 10⁵ и из-за отсутствия автокорреляции между элементами можем считать, что эффективный размер выборки (ESS) примерно равен физическому размеру (то есть 100% сэмплов несут независимую информацию об апостериорном распределении).
В последнем примере мы взяли выборку размера 10⁵, при этом отбирали с лагом в 10 (то есть каждый 10-ый сэмпл из цепи попал в выборку), в итоге суммарный размер составил 10⁶. Но что мы видим в саммари: ESS для угловых параметров измеряется в сотнях.То есть эффективность сэмплинга составила примерно 10³ / 10⁶ (0.1% сэмплов несут независимую информацию об апостериорном распределении).
Я когда это увидел был в полном шоке.

❤1

143 viewsMaksim Kuznetsov, edited 09:15

Biostatistics on the Table

Ну и тематическая шутка, как водится

🔥2❤1

136 viewsMaksim Kuznetsov, 09:39

Biostatistics on the Table

В комментариях есть еще мысли про 5 этап

130 viewsMaksim Kuznetsov, 10:54

Biostatistics on the Table

Forwarded from Борзило

115 viewsMaksim Kuznetsov, 10:54

Biostatistics on the Table

Forwarded from Biostatistics on the Table chat

Это оказалось очень тонким центральным моментом методологии, не все, что похоже на сэмплинг Гиббса им является, я раньше, например, считал (и на занятиях говорил), что MICE - это разновидность сэмплинга Гиббса, оказалось, что это не так, хотя и похоже
https://tpmorris.substack.com/p/mice-is-not-a-gibbs-sampler

Substack

MICE is not a Gibbs sampler

(A probably pointless bugbear)

❤1

170 viewsMaksim Kuznetsov, 12:26

Biostatistics on the Table

Эндрю Гелман порекомендовал к прочтению статью Statistical Inference: The Big Picture, наверное, хорошая

159 viewsMaksim Kuznetsov, edited 14:08

Biostatistics on the Table

Смотрите, какой интересный куррикулум.
На курсере появилась специализация Foundations of Probability and Statistics Specialization (в целом у Colorado Boulder достаточно много интересного там есть по статистике и анализу данных с уклоном в advanced*).
Осень перестает быть скучной.

* по меркам MOOC, конечно

😍3❤2

139 viewsMaksim Kuznetsov, edited 11:07

Biostatistics on the Table

И в целом познавательно, и достаточно неплохое популярное изложение концепции
https://www.youtube.com/watch?v=VlkByRCztzc

YouTube

Statistics' Million Dollar Idea (False Discovery Rate)

Modern problems require modern statistics

LINKS TO CHECK OUT:
https://www.rousseeuwprize.org/

CHANNEL LINKS:
🌱 Very Normal's Website — http://verynormal.io
🗞️ Substack — https://verynormal.substack.com
☕ Buy me a Ko-fi! — https://ko-fi.com/verynormal

150 viewsMaksim Kuznetsov, edited 12:24

Biostatistics on the Table

И в целом познавательно, и достаточно неплохое популярное изложение концепции https://www.youtube.com/watch?v=VlkByRCztzc

Я 12-ый )

😁4

135 viewsMaksim Kuznetsov, 12:39

Biostatistics on the Table

Я 12-ый )

Вообще вот что я искал, мне в свое время очень понравилось, как сам Беньямини в этой лекции описывал истоки идеи.
часть 1 и часть 2

YouTube

Selective Inference and False Discovery Rate I

Yoav Benjamini, Tel Aviv University
Big Data and Differential Privacy
http://simons.berkeley.edu/talks/yoav-benjamini-2013-12-11a

167 viewsMaksim Kuznetsov, edited 12:41

Biostatistics on the Table

Forwarded from RSS bot

Reanalysis of that Nobel prizewinning study of patents and innovation
https://statmodeling.stat.columbia.edu/2025/10/21/reanalysis-of-that-nobel-prizewinning-study-of-patents-and-innovation/

🔥2

153 viewsMaksim Kuznetsov, 14:08

Biostatistics on the Table

Полезный материал, пока пробежался только, но Гелман там интересные моменты рассматривает, которые у меня частенько вопросы вызывают, планирую внимательно прочитать

140 viewsMaksim Kuznetsov, edited 14:08

Biostatistics on the Table

Peter Tennant с коллегами оказывается междисциплинарные* онлайн-семинары по вопросам причинно-следственного вывода проводят (даже удивительно насколько междисциплинарно у них там).

На YouTube начали выкладывать записи.

* даже удивительно насколько междисциплинарно у них там

163 viewsMaksim Kuznetsov, edited 10:13

Biostatistics on the Table

Вот на что наткнулся.
Знаю, что часто люди не понимают, с чего начать изучение R. Особенно проблема с рекомендацией русскоязычных источников. Литература по R на русском языке есть, но либо качество переводов сильно хромает, либо материал уже устарел, поскольку так, как писали на R 5 лет назад, мало кто сейчас пишет.

ДМК-пресс* оказывается новую книгу для начинающих выпустили. Ознакомился с содержанием, все очень актуально, я бы даже сказал, все модно и современно.
Позабавило, конечно, что "Автор: Ткаченко Н.", а "Перевод: Логунов А.".

* издательство, у которого, как правило, все неплохо, а иногда даже очень хорошо с переводами получается

Dmkpress

Основы анализа данных на языке R

Купить книгу «Основы анализа данных на языке R», автора Ткаченко Н. в издательстве «ДМК Пресс». Выгодные цены в Москве, доставка. Заказать книги и учебники на официальном сайте издательства.

❤3

171 viewsMaksim Kuznetsov, edited 11:13

Biostatistics on the Table

Ознакомился с содержанием

Увидел, что есть глава про восполнение пропущенных данных, конечно, сразу захотелось посмотреть, что там.
Думал, наткнусь на всякие безобразия и посоветую не читать ее, но, неожиданно, оказалось не все так плохо. Есть, конечно, что может вызвать негодование (см. скрины), но тем не менее пропустить главу я рекомендовать не буду.
Удивило, что про congeniality assumption и models compatibility в разделе про множественную импутацию даже что-то есть.

❤1

186 viewsMaksim Kuznetsov, 11:43

About

Blog

Apps

Platform