Biostatistics on the Table
314 subscribers
108 photos
5 videos
1 file
114 links
Место, где ML расшифровывается как Maximum Likelihood
Download Telegram
Forwarded from Sinекура
В курсе "Технологии и фронтиры науки о данных" в ЮФУ на этот раз уже закончили с историей вопроса и перешли (thank God) к содержательной части:

ЮФУ — 2025.10.30 — Вероятностные основы машинного обучения
(слайды и доска на странице курса)

К этой части я приступал с некоторым трепетом, потому что, как вы понимаете, в популярных лекциях для первокурсников нельзя предполагать, что у студентов уже были курсы теорвера и матстатистики. Но вроде бы всё не так плохо, теорвер нынче в школе так или иначе проходят, и студенты в чате отвечали на мои вопросы достаточно бодро, хоть частенько и неправильно. :)

В общем, первая вероятностная лекция прошла в воспоминаниях о том, что такое вероятность, что такой байесовский взгляд на вероятности, а также в обсуждении вероятностных примеров, которые я обычно вспоминаю: ошибки прокурора и адвоката, пример Монти Холла (парадоксом его язык не очень поворачивается назвать), парадокс Спящей красавицы (а вот тут и правда есть о чём порассуждать).

В следующий раз попробую всё-таки рассказать о том, как обучать монетку, а то и о линейной регрессии. Надеюсь, прокатит.)
Forwarded from Matt
Да, хороший видос. Единственное: прелесть теоремы Скляра состоит в том, что ассоциированная копула не просто существует всегда, она ещё и единственная (если мы говорим про непрерывные распределения; в распределениях с атомами начинаются проблемы, об этом во второй части диплома).
genzplyr — СленгR 😀

Юмор от Hadley Wickham'а останется в учебниках! Шутки ради он выпустил "альтернативную версию" для dplyrбиблиотеку genzplyr. Здесь "глаголы" dplyr написаны в духе GenZ — поколения Z-сленга. Например:


mtcars |>
filter(mpg > 20) |>
select(mpg, cyl, hp) |>
mutate(kpg = mpg * 1.6) |>
arrange(desc(mpg))


превращается в


mtcars |>
yeet(mpg > 20) |>
vibe_check(mpg, cyl, hp) |>
glow_up(kpg = mpg * 1.6) |>
slay(desc(mpg))


Мне особенно понравились функции vibe_check() и send_it().

Зачем это нужно? По мнению классика:

Потому что наука о данных должна быть увлекательной, а ваш код должен отражать вашу индивидуальность. А еще вообразите себе выражение лица вашего профессора, когда вы представите ему код, использующий yeet() и squad_up()!
😁2🤡1
Forwarded from RSS bot
Biostatistics on the Table
Все тщетно
При этом, конечно, существует лучшая post-introductory statistics textbook.
Это Statistical Rethinking самого МакЭлрита.
😁5
Biostatistics on the Table
При этом, конечно, существует лучшая post-introductory statistics textbook. Это Statistical Rethinking самого МакЭлрита.
Ну и полезное, надеюсь
Я бы очень хотел, чтобы моими introductory statistics textbooks были:
1) Statistics for Ecologists (не уверен, что все будут согласны, что она такая уж интродактари)
2) Telling Stories with Data (не совсем статистикс, но у Гелмана в рекомендациях она тоже присутствует)
🔥1
Forwarded from Sinекура
В среду снова радикально меняем тему; на этот раз у нас практически классическое машинное обучение, да ещё и с байесовским уклоном. Уверен, что в исполнении Максима будет интересно.

BART

Ссылка на трансляцию (среда 19 ноября, 14:00)

Максим Николаев
(МКН СПбГУ)

BART, Bayesian Additive Regression Trees — это непараметрическая модель, которая наследует выразительность от ансамблей деревьев решений и описание неопределённости от байесовского подхода. Как это часто бывает, апостериорное распределение этой модели краткой аналитической формы не имеет, поэтому для работы с ней используются методы Монте-Карло на марковских цепях (MCMC).

Мы обсудим устройство модели, а также используемые методы MCMC. В оставшееся время обсудим направления для дальнейших исследований. Материал не требует специфической подготовки, но будет полезным понимание основных понятий теории цепей Маркова вплоть до стационарного распределения.
2👍1🔥1
Forwarded from Evgeny Bakin
Очень прикольно сделанный сайт, позволяющий критически переосмыслить такие незыблемые вещи как ROC и AUC:

https://predictionperformancediscrimination.netlify.app/#/discrimination
2👍2
Это выглядит слишком хорошо, чтобы быть правдой.
Не понимаю, почему метод так не популярен в биомедицине.
suppressPackageStartupMessages({
library(tidyverse)
library(logistf)
})

set.seed(15321)

n <- 150
p1 <- 0.015
p2 <- 0.03

x <- rep(0:1, each = n)
probs <- rep(c(p1, p2), each = n)

sim <- function() {
df <- data.frame(
x = x,
y = rbinom(
n = n * 2, size = 1,
prob = probs
)
)

fit <- logistf(
y ~ x, data = df,
pl = TRUE, firth = TRUE
)

c(
n1 = sum(df$y[x == 0]),
n2 = sum(df$y[x == 1]),
beta = fit$coefficients[[2]],
lcl = fit$ci.lower[[2]],
ucl = fit$ci.upper[[2]],
lrt = 1 - pchisq(-2 * diff(fit$loglik), df = 1)
)
}

res <- replicate(10000, sim())

eff <- log((p2/(1 - p2))/(p1/(1 - p1)))

t(res) |>
as_tibble() |>
mutate(eff = eff) |>
summarise(
coverage = mean(between(eff, lcl, ucl)),
power = mean(lrt.null < 0.05),
`S-type` = mean(beta < 0 & lrt.null < 0.05),
mean = mean(beta),
true = mean(eff),
bias = mean - true
)
Biostatistics on the Table
Это выглядит слишком хорошо, чтобы быть правдой. Не понимаю, почему метод так не популярен в биомедицине. suppressPackageStartupMessages({ library(tidyverse) library(logistf) }) set.seed(15321) n <- 150 p1 <- 0.015 p2 <- 0.03 x <- rep(0:1, each…
Здесь очень сложная ситуация.
Редкие события и маленькая выборка, с учетом редкости событий в одной из групп с 10% вероятностью событий не будет вовсе.
Но я ничего не фильтровал и никаких na.rm = TRUE, все 10000 моделей сошлись и ДИ почти обеспечивают заявленную альфу (полуторапроцентное перепокрытие мне представляется даже чем-то хорошим с практической точки зрения).
Просто попробуйте, кому интересно, glm() с вальдовскими интервалами при такой ситуации запустить (вернее даже при более мягкой, здесь с glm в общем-то ловить совсем нечего).
Biostatistics on the Table
в одной из групп с 10% вероятностью событий не будет вовсе
В рассматриваемом сценарии хотя бы в одной из групп не было событий в 1105 случаях, в обеих (!) группах не было событий в 10 случаях (да, в этих случаях мы тоже получили оценки эффекта, понятно, что это не очень информативно, но все же прикольно).
Вдруг кому-то пригодится
Forwarded from Maksim Kuznetsov
Не ответ на вопрос, но в последнее время я обратил внимание, что очень часто в качестве учебника по статистике рекомендуют вот эту книгу

https://www.routledge.com/Statistical-Inference/Casella-Berger/p/book/9781032593036