статИИстик – Telegram

статИИстик

183 subscribers

75 photos

3 videos

162 links

О медицинской статистике и не только
Личные сообщения @glivec

Download Telegram

About

Blog

Apps

Platform

статИИстик

183 subscribers

статИИстик

#среднийуровень
Кратко о тестах сравнения кривых Каплана-Мейера

📉📈 Анализ Каплана-Мейера используется для оценки функции выживания. Визуальное представление этой функции называется кривой Каплана-Мейера, и она показывает, какова вероятность события (например, смерти) в определенный интервал времени. Кривые выживаемости рисуются сверху вниз, из точки 1, когда 100% пациентов живы. Графики заболеваемости (инцидентности) рисуются снизу вверх, из точки 0, когда 0% пациентов имеют то или иное заболевание (осложнение). Часто в исследовании сравниваются 2 (и более) групп между собой.

Для этого применяются различные непараметрические тесты:
✅ Критерий логранк (logrank): сравнение непересекающихся между собой кривых выживаемости (заболеваемости)
✅ Критерий Гехана (Gehan) или критерий Уилкоксона (Wilcoxon): сравнение пересекающихся между собой кривых выживаемости (заболеваемости)
✅ Критерий Грея (Gray): кумулятивная функция инцидентности (анализ конкурирующих рисков)
✅ Hazard Ratio (отношение опасностей или рисков): сравнение кривых выживаемости (заболеваемости) при условии соблюдения допущений к регрессионному анализу Кокса

117 viewsedited 20:09

статИИстик

Некоторые мифы в статистике, о которых вы возможно слышали, но не знали, что это мифы

❌ p-уровень значимости = вероятности ошибки полученного результата
❌ Критерий Стьюдента следует применять только при нормальном распределении выборки
❌ Можно всегда использовать непараметрические методы статистики (например, Манна-Уитни), они ничем не хуже Стьюдента
❌ В модель логистической регрессии нужно включать только статистически значимые предикторы
❌ Перед многофакторным анализом нужно проводить однофакторный и выбирать предикторы на основании p<0.05
❌ Данные с пропущенными значениями следует удалять
❌ Размер выборки для модели, высчитанный с помощью эмпирических правил количества наблюдений на предиктор, является достаточным
❌ Количественные переменные нужно превращать в категориальные, например, с помощью ROC-анализа, перед моделированием
❌ Главным показателем эффективности модели является ее точность
❌ После построения модели, нужно найти порог для принятия решения
❌ Площадь под ROC-кривой = точности модели

118 viewsedited 17:37

статИИстик

Методы выбора предикторов в модель

Нужно ли всегда производить селекцию предикторов перед построением модели? Скорее нет, чем да! Но если вы решили выбрать предикторы для своей модели, вот методы, которые вы можете использовать:

✅ Удаление высоко коррелирующих ковариат (КК Спирмена >0.75) - тест на мультиколинеарность
✅ Пошаговая регрессия (forward / backward stepwise) на основании p, AIC (информационный критерий Акаике) или BIC (байесовский информационный критерий).
✅ Машинное обучение ("случайный лес")
✅ Рекурсивное удаление признаков (RFE)
✅ Штрафные регрессии (гребневая, LASSO)

Методы, которые не стоит применять:
❌Описательная статистика (сравнение средних, Хи2)
❌Однофакторный анализ с p<0.05 или другим p

114 views11:57

статИИстик

статИИстик

Методы выбора предикторов в модель Нужно ли всегда производить селекцию предикторов перед построением модели? Скорее нет, чем да! Но если вы решили выбрать предикторы для своей модели, вот методы, которые вы можете использовать: ✅ Удаление высоко коррелирующих…

Подробнее про выбор предикторов для модели логистической регрессии можно почитать в свежем номере журнала «Врач и информационные технологии»

100 viewsedited 13:48

статИИстик

✅ Хорошая статья о том, как делать модель логистической регрессии с подробным разбором этапов ее создания на русском языке. Описанные шаги создания и сама модель не идеальны, но дают общее представление в рамках существующих проблем и их решений: https://www.clinvest.ru/jour/article/view/613

116 views06:18

статИИстик

#среднийуровень
Про вероятность тромбоза у онкологических больных

Представим, что в конкретной больнице у онкологических больных в среднем происходит 2 тромбоза в месяц (за ретроспективный период наблюдения). Тогда какова вероятность 4 тромбогенных осложнений в месяц? На помощь приходит распределение Пуассона.
Распределение Пуассона - распределение вероятности числа независимых друг от друга событий в течение определенного интервала времени. Распределение Пуассона описывает вероятность того, что событие произойдет k раз за заданный интервал времени. Если случайная величина X подчиняется распределению Пуассона, то вероятность того, что X = k, можно найти по формуле: P(X=k) = λ^k * e^-λ) / k!, где λ - среднее количество событий за определенный интервал времени, k - заданное число событий, e - константа (2.71828...).

Тогда можно подсчитать вероятность 4 тромбозов в месяц. P(X=4) = 2^4 * e^(-2) / 4! = 16 * 0.1353 / 24 = 0.09 (9%).
Доверительный интервал для 2 тромбозов будет равен 0.24-7.22 или от 0 до 7 тромбозов в месяц (с вероятностью 95%).
Таким же образом можно рассчитать кумулятивную вероятность (путем сложения вероятностей). Например, вероятность менее 4 тромбозов в месяц = 0,85, а более 4 = 0,05.

👍1

102 views15:17

статИИстик

#среднийуровень
Про вероятность тромбоза у онкологических больных-2

Представим, что известная частота тромбозов у онкологических больных в популяции составляет 5%. Тогда какова вероятность, что пролечив 100 пациентов, вы встретите только 1 пациента с таким осложнением и какова вероятность, что более чем у 1 пациента случится тромбоз? Ответы: ~3% и 96%. В основе этих расчетов лежит биномиальное распределение - самое популярное распределение в статистике.
Биномиальное распределение описывает вероятность исхода k раз в n биномиальных экспериментах. Биномиальный эксперимент - эксперимент, обладающий следующими четырьмя свойствами:
1. Эксперимент состоит из n повторных попыток
2. Каждое испытание имеет только два возможных исхода
3. Вероятность успеха, обозначаемая p, одинакова для каждого испытания
4. Каждое испытание является независимым
Наиболее очевидным примером биномиального эксперимента является подбрасывание монеты.
Если случайная величина X подчиняется биномиальному распределению, то вероятность того, что X = k, можно найти по следующей формуле: P(X=k) = nCk * p^k * (1-p)^(n-k), где
n - количество испытаний
k - количество исходов
p - вероятность исхода в испытании
nCk - общее количество k исходов в n испытаниях (используется формула числа сочетаний из комбинаторики).

Вернемся к тромбозам: n = числу пациентов (100), k = 1 пациенту с тромбозом p = 0.05 (частота тромбоза в популяции), nCk = 100.
P(X=k) = 100*0.05^1*0.95^99=0.03 (3%).
Кумулятивная вероятность (более 1 тромбоза) складывается из суммы вероятностей. Для расчета необходимо воспользоваться специальными калькуляторами или программированием.

👍1

107 views16:23

статИИстик

Про биномиальный тест

Биномиальный тест сравнивает пропорцию выборки с гипотетической пропорцией. Нулевая гипотеза заключается в том, что вероятность (p) исхода в выборке равна вероятности (P) исхода в популяции.

Например, известно, что вероятность тромбоза в популяции у онкологических пациентов составляет 5%. В нашей случайной выборке из 100 пациентов у 10 случился тромбоз. Тогда согласно биномиальному тесту вероятность тромбоза в нашей выборке составила 0.1 (95% ДИ 0.049-0.176), p=0.03. Поскольку p значение меньше 0.05, мы можем отклонить нулевую гипотезу и заключить, что частота тромбоза в нашей выборке выше популяционной. Другими словами вероятность получить такое распределение при верности нулевой гипотезы равна только 3%, что дает нам основания ее отклонить.
Биномиальный тест можно посчитать онлайн. Минимальный размер выборки для выполнения биномиального теста можно посчитать здесь.

👍1

130 views08:06

статИИстик

статИИстик pinned Deleted message

18:57

статИИстик

#базовыйуровень
У кого ниже гемоглобин? Проверяем научную гипотезу на простом примере.
Чита ть далее …

У кого ниже гемоглобин?

Мы изучаем заболевание крови X и наша научная гипотеза гласит, что уровень гемоглобина у женщин ниже, чем у мужчин. Давайте это проверим. Мы собрали первые данные о 40 пациентах: мужчины – 11, женщины – 29. И посмотрели у них средний уровень гемоглобина.…

128 viewsedited 18:49

статИИстик

#среднийуровень
Проблема пропущенных значений

Что делать и что не делать, если в ваших данных есть пропущенные значения:
❌ Ничего не делать
❌ Убрать строки/столбцы с пропущенными значениями

🟡 Использовать методы анализа, нечувствительные к пропущенным значениям
🟡 Генерировать новые данные через наивное вменение (замена пропущенных значений медианой, средним, наиболее часто встречающимся значением)

✅ Генерировать данные через множественное вменение (алгоритмы MICE, Random Forest и др.)
✅ Дособирать недостающие данные

P.S. Хотите реальные примеры? Пишите в комментариях.

👍2

119 views18:36

статИИстик

#базовыйуровень
Что нужно знать и понимать о кривой выживаемости

Когда вам говорят, например, что "у нас выживаемость пациентов 80%, а у вас?" и демонстрируют кривую выживаемости, вас могут "обманывать", часто не специально.

✅ Кривая выживаемости - вероятностная кривая, то есть правильнее говорить об актуриальной (ожидаемой) вероятности, а не об истинной. Посчитать истинную выживаемость возможно только при завершении всех наблюдений или за такой интервал, в котором не осталось цензурированных наблюдений.
✅ Формулировка "выживаемость n%" должна обязательно сопровождаться данными о временном интервале: 1-летняя, 5-летняя выживаемость или какая-то другая.
✅ Величина временного периода должна быть <= медианы периода наблюдения за пациентами, иначе результаты становятся слишком оптимистично завышенными.
✅ Если необходимо экстраполировать данные о выживаемости на популяцию (генеральную совокупность) и сравнить с аналогичными результатами из другого медицинского центра, хотя бы формально, необходимо указывать доверительный интервал выживаемости. Любая выборка - случайна и при повторном эксперименте получить точно такой же результат очень маловероятно. Поэтому всегда существует доверительный интервал или интервал неопределенности, величина которого обратно пропорциональна размеру выборки. Без доверительного интервала непрямое сравнение исследований невозможно.
✅ Медиана выживаемости, если она достигнута (график спустился до отметки 50% или ниже) отражает промежуток времени, в течение которого половина пациентов остаются живы НА МОМЕНТ проведения анализа. Со временем медиана, как и другие показатели выживаемости, могут меняться.

122 viewsedited 17:39

статИИстик

Вы захотели оценить распространенность рака легких среди злостных курильщиков в вашем регионе, как это сделать?
Читать далее …

111 viewsedited 07:14

статИИстик

В предыдущем посте сначала не подгрузились формулы, исправлено!

Про базовые понятия любого научного исследования
✅ Научная идея - неоформленная мысль (предположение, вопрос, замысел) в области той или иной научно-исследовательской проблемы или темы.

✅ Научная гипотеза - формализованное (оформленное) теоретическое утверждение о предполагаемой взаимосвязи или закономерности исследуемых явлений или событий, решение об истинности которого еще не принято.

✅ Научная теория - доказательство истинности научной гипотезы посредством теоретических и/или практических доказательств.

✅ Научный эксперимент - доказательство истинности научной гипотезы через анализ данных и/или практический опыт (наблюдение).

✅ Теоретические доказательство - математический и статистический анализ данных, выводы которого подтверждают научную гипотезу.

✅ Практическое доказательство - опыт или наблюдение, которые подтверждают научную гипотезу.

✅ Независимая переменная - переменная, которая изменяется или контролируется в научном эксперименте для проверки ее влияния на зависимую переменную.

✅ Зависимая переменная - переменная, которая тестируется и измеряется в научном эксперименте.

✅ Эффект – влияние независимой переменной на зависимую переменную.

✅ Фиксированный эффект - влияние независимой переменной, представляющей интерес для исследователя.

✅ Случайный эффект - влияние независимой переменной, не представляющей первостепенный интерес для исследователя (переменные, которые специально не учитываются).

✅ Взаимосвязь переменных (данных) - математическая модель или функция, описывающая эффекты влияния независимых переменных друг на друга или на зависимую переменную.

✅ Зависимость переменных - распределение переменных таким образом, что их значения согласованы друг с другом (влияют друг на друга) в имеющихся наблюдениях.

✅ Распределение переменных - закономерное распределение данных, позволяющая рассчитывать вероятность того, что переменная примет определенное заданное значение или значение из данного распределения.

🔥1

123 views20:57

статИИстик

Сравниваем уровень гемоглобина у онкологических пациентов с разной стадией заболевания c использованием one-way ANOVA теста.

115 viewsedited 19:13

статИИстик

👍2

117 views11:39

статИИстик

Ваша переменная измерена в % (от 0 до 100), можно ли к ней применять статистику средних величин и дисперсионный анализ?
Нет!

Что делать? Один из вариантов - трансформировать переменную посредством вот такого уравнения: log(P/(100-P)), log - натуральный логарифм, P - значение переменной в %.
Это называется логит-преобразованием, которое применяется для пропорций и процентов. P не должно равняться 1 (100%), иначе возникнет деление на 0.
Давайте посмотрим на примере. В нашей выборке 549 пациентов, у которых подсчитано число лейкозных клеток в костном мозге: 25.6 (Q1-Q3: 13.2-29.7)%. На рисунке - гистограммы до (не очень нормальное распределение) и после логит-преобразования (вполне нормальное распределение).

👍1

117 views13:58

статИИстик

#среднийуровень
Про регрессионный анализ пропорциональных рисков Кокса

Позволяет найти взаимосвязь между зависимой time-to-event (временем до события) и независимыми переменными.
Применяется для:
📌 поиск предикторов (факторов прогноза) выживаемости или заболеваемости через отношение рисков
📌 создания прогностической модели

Допущения метода:
✅ Наблюдения должны быть независимыми друг от друга (разные пациенты, не связанные между собой)
✅ Ковариаты (предикторы) должны быть независимы друг от друга
✅ Допущение пропорциональности (влияние фактора риска постоянно во времени)!
✅ Желательно отсутствие экстремальных выбросов (наблюдения слишком ранней смерти или слишком долгой жизни)
✅ Линейность независимых переменных и логарифма опасностей
✅ Достаточный размер выборки
✅ Отсутствие мультиколинеарности

Риск выживания во времени h(t) = h0(t) * exp (b1X1 + … bnXn)
Вероятность выживания во времени P(t) = exp(-(h0(t)*exp (b1X1 + …bnXn)))

h0(t) – базовый риск (интерсепт)
b – коэффициент регрессии
X – значение предиктора

👍1🔥1

105 viewsedited 19:08

статИИстик

#среднийуровень
Интерпретируем отношение шансов (Odds Ratio) в моделях логистической регрессии

Коэффициент регрессии b для предиктора X превращается в ОШ путем возведения exp (2.718128...) в степень этого самого коэффициента b. Например, при b(X1) = 0.5, ОШ для ковариаты X1 = exp(0.5) = 1.64. Но интерпретация полученного значения ОШ будет зависеть от типа переменной X1. Разбираемся на примерах:

Пусть наше уравнение регрессии имеет вид: b0 + b1*X1 + b2*X2, тогда если:

✅ X1 (категориальная, ОШ = 1.6): шансы исхода выше в 1.6 раз при наличии предиктора X1
✅ X1 (количественная, ОШ = 1.06): шансы исхода выше на (1.06-1)*100 = 6% при увеличении X1 на 1ЕД (ЕД в которых измеряется X1); шансы исхода выше на (1.06^k-1)*100% при увеличении X1 на k ЕД
✅ X1 (категориальная, ОШ = 1.6) + X2 (категориальная, ОШ = 1.4): шансы исхода выше в 1.6*1.4 = 2.24 раза при наличии предикторов X1 и X2
✅ X1 (количественная, ОШ = 1.06) + X2 (количественная, ОШ = 1.04): шансы исхода выше на ((1.06+1.04)-1)*100% при при увеличении X1 на 1ЕД и Х2 на 1ЕД
✅ X1 (категориальная, ОШ = 1.6) + X2 (количественная, ОШ = 1.04): шансы исхода выше в 1.6*1.04 = 1.66 раза при наличии предиктора X1 и увеличении X2 на 1ЕД

⚠️ Иногда количественные ковариаты логарифмируют, тогда:
log (X1) и ОШ = 1.06: шансы исхода выше на 6% при увеличении X1*n, где n – основание логарифма. Например, log2(X1) и ОШ 1.06 интерпретируется как увеличение шансов исхода на 6% при увеличении X1 в 2 раза.

👍3

105 viewsedited 11:54

статИИстик

Формула среднего процента

Средний процент - определение среднего значения двух или более процентов от целого.
💁‍♂️ Формула: [(процент 1 + процент 2 + процент n) / (выборка 1 + выборка 2 + выборка n)] * 100%
Если размеры выборок совпадают, то средний процент равен простому среднему от всех процентов. Например, у нас 3 выборки по 100 пациентов. Из них ответили на лечение 40, 60, 80% пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение можно рассчитать по упрощенной формуле (40%+60%+80%) / 3 = 60%.
⚠ Но если размеры выборок не совпадают, тогда используется универсальная формула выше ☝. Например, у нас 3 выборки по 100, 150 и 200 пациентов. Из них ответили на лечение 40% (n=40), 60% (n=90), 80% (n=160) пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение равен (40+90+160)/(100+150+200) * 100 = 64.4%

97 viewsedited 16:14

статИИстик

Новая рубрика. Полезные формулы в #excel
Разность дат в днях, месяцах, годах (полезно, когда готовите данные для анализа выживаемости)

✅ =РАЗНДАТ(начальная_дата; конечная_дата; способ_измерения), способ измерения: "d" - разница в днях, "m" - разница в полных месяцах, "y" - разница в полных годах

Альтернативные решения:
✅ =(ГОД(конечная_дата)-ГОД(начальная_дата))*12+МЕСЯЦ(конечная_дата)-МЕСЯЦ(начальная_дата) - разница в полных месяцах

✅ =(ГОД(конечная_дата)-ГОД(начальная_дата)) - разница в полных годах
Подробнее здесь

Функция РАЗНДАТ() - Вычисление разности двух дат в днях, месяцах, годах в EXCEL. Примеры и описание

Функция РАЗНДАТ() - Вычисление разности двух дат в днях, месяцах, годах в MS EXCEL. Для вычислений длительности временных интервалов удобней всего использовать недокументированную функцию РАЗНДАТ( ) , английский вариант DATEDIF().

👍1

108 viewsedited 17:02