Forwarded from Sinекура
В курсе "Технологии и фронтиры науки о данных" в ЮФУ на этот раз уже закончили с историей вопроса и перешли (thank God) к содержательной части:
ЮФУ — 2025.10.30 — Вероятностные основы машинного обучения
(слайды и доска на странице курса)
К этой части я приступал с некоторым трепетом, потому что, как вы понимаете, в популярных лекциях для первокурсников нельзя предполагать, что у студентов уже были курсы теорвера и матстатистики. Но вроде бы всё не так плохо, теорвер нынче в школе так или иначе проходят, и студенты в чате отвечали на мои вопросы достаточно бодро, хоть частенько и неправильно. :)
В общем, первая вероятностная лекция прошла в воспоминаниях о том, что такое вероятность, что такой байесовский взгляд на вероятности, а также в обсуждении вероятностных примеров, которые я обычно вспоминаю: ошибки прокурора и адвоката, пример Монти Холла (парадоксом его язык не очень поворачивается назвать), парадокс Спящей красавицы (а вот тут и правда есть о чём порассуждать).
В следующий раз попробую всё-таки рассказать о том, как обучать монетку, а то и о линейной регрессии. Надеюсь, прокатит.)
ЮФУ — 2025.10.30 — Вероятностные основы машинного обучения
(слайды и доска на странице курса)
К этой части я приступал с некоторым трепетом, потому что, как вы понимаете, в популярных лекциях для первокурсников нельзя предполагать, что у студентов уже были курсы теорвера и матстатистики. Но вроде бы всё не так плохо, теорвер нынче в школе так или иначе проходят, и студенты в чате отвечали на мои вопросы достаточно бодро, хоть частенько и неправильно. :)
В общем, первая вероятностная лекция прошла в воспоминаниях о том, что такое вероятность, что такой байесовский взгляд на вероятности, а также в обсуждении вероятностных примеров, которые я обычно вспоминаю: ошибки прокурора и адвоката, пример Монти Холла (парадоксом его язык не очень поворачивается назвать), парадокс Спящей красавицы (а вот тут и правда есть о чём порассуждать).
В следующий раз попробую всё-таки рассказать о том, как обучать монетку, а то и о линейной регрессии. Надеюсь, прокатит.)
Forwarded from Matt
Да, хороший видос. Единственное: прелесть теоремы Скляра состоит в том, что ассоциированная копула не просто существует всегда, она ещё и единственная (если мы говорим про непрерывные распределения; в распределениях с атомами начинаются проблемы, об этом во второй части диплома).
Forwarded from Наука и данные
genzplyr — СленгR 😀
Юмор от Hadley Wickham'а останется в учебниках! Шутки ради он выпустил "альтернативную версию" для dplyr — библиотеку genzplyr. Здесь "глаголы" dplyr написаны в духе GenZ — поколения Z-сленга. Например:
превращается в
Мне особенно понравились функции
Зачем это нужно? По мнению классика:
Юмор от Hadley Wickham'а останется в учебниках! Шутки ради он выпустил "альтернативную версию" для dplyr — библиотеку genzplyr. Здесь "глаголы" dplyr написаны в духе GenZ — поколения Z-сленга. Например:
mtcars |>
filter(mpg > 20) |>
select(mpg, cyl, hp) |>
mutate(kpg = mpg * 1.6) |>
arrange(desc(mpg))
превращается в
mtcars |>
yeet(mpg > 20) |>
vibe_check(mpg, cyl, hp) |>
glow_up(kpg = mpg * 1.6) |>
slay(desc(mpg))
Мне особенно понравились функции
vibe_check() и send_it().Зачем это нужно? По мнению классика:
Потому что наука о данных должна быть увлекательной, а ваш код должен отражать вашу индивидуальность. А еще вообразите себе выражение лица вашего профессора, когда вы представите ему код, использующийyeet()иsquad_up()!
😁2🤡1
Forwarded from RSS bot
What intro stats textbook to use?
https://statmodeling.stat.columbia.edu/2025/11/09/what-intro-stats-textbook-to-use/
https://statmodeling.stat.columbia.edu/2025/11/09/what-intro-stats-textbook-to-use/
Biostatistics on the Table
Все тщетно
При этом, конечно, существует лучшая post-introductory statistics textbook.
Это Statistical Rethinking самого МакЭлрита.
Это Statistical Rethinking самого МакЭлрита.
😁5
Biostatistics on the Table
При этом, конечно, существует лучшая post-introductory statistics textbook. Это Statistical Rethinking самого МакЭлрита.
Ну и полезное, надеюсь
Я бы очень хотел, чтобы моими introductory statistics textbooks были:
1) Statistics for Ecologists (не уверен, что все будут согласны, что она такая уж интродактари)
2) Telling Stories with Data (не совсем статистикс, но у Гелмана в рекомендациях она тоже присутствует)
Я бы очень хотел, чтобы моими introductory statistics textbooks были:
1) Statistics for Ecologists (не уверен, что все будут согласны, что она такая уж интродактари)
2) Telling Stories with Data (не совсем статистикс, но у Гелмана в рекомендациях она тоже присутствует)
Tellingstorieswithdata
Telling Stories with Data
🔥1
Biostatistics on the Table
https://osf.io/preprints/metaarxiv/eckdg_v1
YouTube
Мискузи | Евротур. 2004.
Отрывок из фильма — "Евротур", 2004
EuroTrip.
Скотт Томас — выпускник местной школы, которому нужна помощь в изучении немецкого языка, и именно для этих целей он знакомится с жителем Германии по имени Майк и начинает с ним дружескую переписку. Причём Скотт…
EuroTrip.
Скотт Томас — выпускник местной школы, которому нужна помощь в изучении немецкого языка, и именно для этих целей он знакомится с жителем Германии по имени Майк и начинает с ним дружескую переписку. Причём Скотт…
Biostatistics on the Table
Meerkat Statistics выпустил видео, с которого, видимо, можно начать подготовку к прочтению дипломной работы Матвея ) И вот еще, Copula Modeling for Clinical Trials, все хотел почитать, но побаивался
Вот это прикольно должно быть почти наверное
Copulas 2: A Deep Dive in R
Copulas 2: A Deep Dive in R
YouTube
Copulas 2: A Deep Dive in R
Outline:
* Bivariate logistic
** Draw contour lines
** Code example
* Sampling
** From the real, or directly from the copula
** Inverse Transform Sampling from the conditional distribution
** Code example
* Gaussian Copula
** Deriving the CDF and PDF
**…
* Bivariate logistic
** Draw contour lines
** Code example
* Sampling
** From the real, or directly from the copula
** Inverse Transform Sampling from the conditional distribution
** Code example
* Gaussian Copula
** Deriving the CDF and PDF
**…
Forwarded from Sinекура
В среду снова радикально меняем тему; на этот раз у нас практически классическое машинное обучение, да ещё и с байесовским уклоном. Уверен, что в исполнении Максима будет интересно.
BART
Ссылка на трансляцию (среда 19 ноября, 14:00)
Максим Николаев
(МКН СПбГУ)
BART, Bayesian Additive Regression Trees — это непараметрическая модель, которая наследует выразительность от ансамблей деревьев решений и описание неопределённости от байесовского подхода. Как это часто бывает, апостериорное распределение этой модели краткой аналитической формы не имеет, поэтому для работы с ней используются методы Монте-Карло на марковских цепях (MCMC).
Мы обсудим устройство модели, а также используемые методы MCMC. В оставшееся время обсудим направления для дальнейших исследований. Материал не требует специфической подготовки, но будет полезным понимание основных понятий теории цепей Маркова вплоть до стационарного распределения.
BART
Ссылка на трансляцию (среда 19 ноября, 14:00)
Максим Николаев
(МКН СПбГУ)
BART, Bayesian Additive Regression Trees — это непараметрическая модель, которая наследует выразительность от ансамблей деревьев решений и описание неопределённости от байесовского подхода. Как это часто бывает, апостериорное распределение этой модели краткой аналитической формы не имеет, поэтому для работы с ней используются методы Монте-Карло на марковских цепях (MCMC).
Мы обсудим устройство модели, а также используемые методы MCMC. В оставшееся время обсудим направления для дальнейших исследований. Материал не требует специфической подготовки, но будет полезным понимание основных понятий теории цепей Маркова вплоть до стационарного распределения.
❤2👍1🔥1
Typst - классный
https://www.youtube.com/watch?v=jY2nCypm0Xs
https://www.youtube.com/watch?v=jY2nCypm0Xs
YouTube
Making high-quality PDFs with Quarto and Typst (Livestream)
We recently published a massive blog post all about making custom PDF templates using Quarto and Typst. If you’re interested in creating beautiful, professional documents with R, you’ll want to check it out: https://rfortherestofus.com/2025/11/typst-blog…
Forwarded from Evgeny Bakin
Очень прикольно сделанный сайт, позволяющий критически переосмыслить такие незыблемые вещи как ROC и AUC:
https://predictionperformancediscrimination.netlify.app/#/discrimination
https://predictionperformancediscrimination.netlify.app/#/discrimination
❤2👍2
Это выглядит слишком хорошо, чтобы быть правдой.
Не понимаю, почему метод так не популярен в биомедицине.
Не понимаю, почему метод так не популярен в биомедицине.
suppressPackageStartupMessages({
library(tidyverse)
library(logistf)
})
set.seed(15321)
n <- 150
p1 <- 0.015
p2 <- 0.03
x <- rep(0:1, each = n)
probs <- rep(c(p1, p2), each = n)
sim <- function() {
df <- data.frame(
x = x,
y = rbinom(
n = n * 2, size = 1,
prob = probs
)
)
fit <- logistf(
y ~ x, data = df,
pl = TRUE, firth = TRUE
)
c(
n1 = sum(df$y[x == 0]),
n2 = sum(df$y[x == 1]),
beta = fit$coefficients[[2]],
lcl = fit$ci.lower[[2]],
ucl = fit$ci.upper[[2]],
lrt = 1 - pchisq(-2 * diff(fit$loglik), df = 1)
)
}
res <- replicate(10000, sim())
eff <- log((p2/(1 - p2))/(p1/(1 - p1)))
t(res) |>
as_tibble() |>
mutate(eff = eff) |>
summarise(
coverage = mean(between(eff, lcl, ucl)),
power = mean(lrt.null < 0.05),
`S-type` = mean(beta < 0 & lrt.null < 0.05),
mean = mean(beta),
true = mean(eff),
bias = mean - true
)
Biostatistics on the Table
Это выглядит слишком хорошо, чтобы быть правдой. Не понимаю, почему метод так не популярен в биомедицине. suppressPackageStartupMessages({ library(tidyverse) library(logistf) }) set.seed(15321) n <- 150 p1 <- 0.015 p2 <- 0.03 x <- rep(0:1, each…
Здесь очень сложная ситуация.
Редкие события и маленькая выборка, с учетом редкости событий в одной из групп с 10% вероятностью событий не будет вовсе.
Но я ничего не фильтровал и никаких
Просто попробуйте, кому интересно,
Редкие события и маленькая выборка, с учетом редкости событий в одной из групп с 10% вероятностью событий не будет вовсе.
Но я ничего не фильтровал и никаких
na.rm = TRUE, все 10000 моделей сошлись и ДИ почти обеспечивают заявленную альфу (полуторапроцентное перепокрытие мне представляется даже чем-то хорошим с практической точки зрения).Просто попробуйте, кому интересно,
glm() с вальдовскими интервалами при такой ситуации запустить (вернее даже при более мягкой, здесь с glm в общем-то ловить совсем нечего).
Biostatistics on the Table
в одной из групп с 10% вероятностью событий не будет вовсе
В рассматриваемом сценарии хотя бы в одной из групп не было событий в 1105 случаях, в обеих (!) группах не было событий в 10 случаях (да, в этих случаях мы тоже получили оценки эффекта, понятно, что это не очень информативно, но все же прикольно).
Biostatistics on the Table
В рассматриваемом сценарии хотя бы в одной из групп не было событий в 1105 случаях, в обеих (!) группах не было событий в 10 случаях (да, в этих случаях мы тоже получили оценки эффекта, понятно, что это не очень информативно, но все же прикольно).
Интересно будет еще байесовский бутстреп с этой моделью попробовать релизовать для RD и RR
Forwarded from Maksim Kuznetsov
Не ответ на вопрос, но в последнее время я обратил внимание, что очень часто в качестве учебника по статистике рекомендуют вот эту книгу
https://www.routledge.com/Statistical-Inference/Casella-Berger/p/book/9781032593036
https://www.routledge.com/Statistical-Inference/Casella-Berger/p/book/9781032593036
Routledge & CRC Press
Statistical Inference
This classic textbook builds theoretical statistics from the first principles of probability theory. Starting from the basics of probability, the authors develop the theory of statistical inference using techniques, definitions, and concepts that are statistical…