статИИстик

Ваша переменная измерена в % (от 0 до 100), можно ли к ней применять статистику средних величин и дисперсионный анализ?
Нет!

Что делать? Один из вариантов - трансформировать переменную посредством вот такого уравнения: log(P/(100-P)), log - натуральный логарифм, P - значение переменной в %.
Это называется логит-преобразованием, которое применяется для пропорций и процентов. P не должно равняться 1 (100%), иначе возникнет деление на 0.
Давайте посмотрим на примере. В нашей выборке 549 пациентов, у которых подсчитано число лейкозных клеток в костном мозге: 25.6 (Q1-Q3: 13.2-29.7)%. На рисунке - гистограммы до (не очень нормальное распределение) и после логит-преобразования (вполне нормальное распределение).

👍1

117 views13:58

статИИстик

#среднийуровень
Про регрессионный анализ пропорциональных рисков Кокса

Позволяет найти взаимосвязь между зависимой time-to-event (временем до события) и независимыми переменными.
Применяется для:
📌 поиск предикторов (факторов прогноза) выживаемости или заболеваемости через отношение рисков
📌 создания прогностической модели

Допущения метода:
✅ Наблюдения должны быть независимыми друг от друга (разные пациенты, не связанные между собой)
✅ Ковариаты (предикторы) должны быть независимы друг от друга
✅ Допущение пропорциональности (влияние фактора риска постоянно во времени)!
✅ Желательно отсутствие экстремальных выбросов (наблюдения слишком ранней смерти или слишком долгой жизни)
✅ Линейность независимых переменных и логарифма опасностей
✅ Достаточный размер выборки
✅ Отсутствие мультиколинеарности

Риск выживания во времени h(t) = h0(t) * exp (b1X1 + … bnXn)
Вероятность выживания во времени P(t) = exp(-(h0(t)*exp (b1X1 + …bnXn)))

h0(t) – базовый риск (интерсепт)
b – коэффициент регрессии
X – значение предиктора

👍1🔥1

105 viewsedited 19:08

статИИстик

#среднийуровень
Интерпретируем отношение шансов (Odds Ratio) в моделях логистической регрессии

Коэффициент регрессии b для предиктора X превращается в ОШ путем возведения exp (2.718128...) в степень этого самого коэффициента b. Например, при b(X1) = 0.5, ОШ для ковариаты X1 = exp(0.5) = 1.64. Но интерпретация полученного значения ОШ будет зависеть от типа переменной X1. Разбираемся на примерах:

Пусть наше уравнение регрессии имеет вид: b0 + b1*X1 + b2*X2, тогда если:

✅ X1 (категориальная, ОШ = 1.6): шансы исхода выше в 1.6 раз при наличии предиктора X1
✅ X1 (количественная, ОШ = 1.06): шансы исхода выше на (1.06-1)*100 = 6% при увеличении X1 на 1ЕД (ЕД в которых измеряется X1); шансы исхода выше на (1.06^k-1)*100% при увеличении X1 на k ЕД
✅ X1 (категориальная, ОШ = 1.6) + X2 (категориальная, ОШ = 1.4): шансы исхода выше в 1.6*1.4 = 2.24 раза при наличии предикторов X1 и X2
✅ X1 (количественная, ОШ = 1.06) + X2 (количественная, ОШ = 1.04): шансы исхода выше на ((1.06+1.04)-1)*100% при при увеличении X1 на 1ЕД и Х2 на 1ЕД
✅ X1 (категориальная, ОШ = 1.6) + X2 (количественная, ОШ = 1.04): шансы исхода выше в 1.6*1.04 = 1.66 раза при наличии предиктора X1 и увеличении X2 на 1ЕД

⚠️ Иногда количественные ковариаты логарифмируют, тогда:
log (X1) и ОШ = 1.06: шансы исхода выше на 6% при увеличении X1*n, где n – основание логарифма. Например, log2(X1) и ОШ 1.06 интерпретируется как увеличение шансов исхода на 6% при увеличении X1 в 2 раза.

👍3

105 viewsedited 11:54

статИИстик

Формула среднего процента

Средний процент - определение среднего значения двух или более процентов от целого.
💁‍♂️ Формула: [(процент 1 + процент 2 + процент n) / (выборка 1 + выборка 2 + выборка n)] * 100%
Если размеры выборок совпадают, то средний процент равен простому среднему от всех процентов. Например, у нас 3 выборки по 100 пациентов. Из них ответили на лечение 40, 60, 80% пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение можно рассчитать по упрощенной формуле (40%+60%+80%) / 3 = 60%.
⚠ Но если размеры выборок не совпадают, тогда используется универсальная формула выше ☝. Например, у нас 3 выборки по 100, 150 и 200 пациентов. Из них ответили на лечение 40% (n=40), 60% (n=90), 80% (n=160) пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение равен (40+90+160)/(100+150+200) * 100 = 64.4%

97 viewsedited 16:14

статИИстик

Новая рубрика. Полезные формулы в #excel
Разность дат в днях, месяцах, годах (полезно, когда готовите данные для анализа выживаемости)

✅ =РАЗНДАТ(начальная_дата; конечная_дата; способ_измерения), способ измерения: "d" - разница в днях, "m" - разница в полных месяцах, "y" - разница в полных годах

Альтернативные решения:
✅ =(ГОД(конечная_дата)-ГОД(начальная_дата))*12+МЕСЯЦ(конечная_дата)-МЕСЯЦ(начальная_дата) - разница в полных месяцах

✅ =(ГОД(конечная_дата)-ГОД(начальная_дата)) - разница в полных годах
Подробнее здесь

excel2.ru

Функция РАЗНДАТ() - Вычисление разности двух дат в днях, месяцах, годах в EXCEL. Примеры и описание

Функция РАЗНДАТ() - Вычисление разности двух дат в днях, месяцах, годах в MS EXCEL. Для вычислений длительности временных интервалов удобней всего использовать недокументированную функцию РАЗНДАТ( ) , английский вариант DATEDIF().

👍1

108 viewsedited 17:02

статИИстик

Что делать, если у вас дефицит данных для анализа:

✅ Собрать больше новых данных (очевидно, но не всегда реально)
✅ Объединиться с другими исследователями (многоцентровые исследования)
✅ Использовать свои результаты совместно с уже опубликованными (мета-анализ)
✅ Снизить размерность данных (в рамках исследований с многофакторным анализом)
✅ Поменять задачи и методы исследования (упростить исследование)
✅ Использовать данные из открытых источников или маркетплейсов данных
✅ Синтезировать искусственные данные на основе имеющихся реальных

👍2

109 viewsedited 07:00

статИИстик

Про дисбаланс данных

Несбалансированность данных - проблема классификации или прогноза исхода, когда прогнозируемый класс (исход) не представлен в одинаковой пропорции с другими классами. Например, вы хотите прогнозировать некое событие, а его частота в выборке составляет только 1%. В целом проблемы могут уже начаться, если дисбаланс 1:4 или выражен сильнее.

Что делать в таком случае:
✅ Ничего не делать и посмотреть получится ли у вас хорошая модель. При определенных обстоятельствах дисбаланс может не повлиять на качество результата
✅ Собрать больше данных по несбалансированному классу
✅ Объединить слабо представленный класс с другими (если есть) в новый (общий) для его последующего прогнозирования
✅ Если у вас много данных, уровняйте классы путем создания новой случайной выборки в нужном вам соотношении
✅ Методы сэмплирования (SMOTE, ROSE ...) - искусственное дублирование наблюдений из редкого класса или удаление части наблюдений из популярного класса
✅ Использование алгоритмов, малочувствительных к дисбалансу. Например, деревья решений
✅ Синтез искусственных данных на основе имеющихся реальных

👍1

108 views09:07

статИИстик

Я хочу сделать прогностическую модель. Какие знания мне нужны? Вот эти:

1. Расчет минимального размера выборки (данных много не бывает!)
2. Селекция предикторов (до-, во время-, после построения модели)
3. Выбор алгоритма модели и допущения к методу (их очень много, часто используемый - логистическая регрессия)
4. Внутренняя валидация модели (бутстрэп, кросс-валидация)
5. Калибровка модели (калибровочная кривая)
6. Проверка стабильности модели (график нестабильности)
7. Внешняя валидация модели

Дополнительно:
8. Презентация (визуализация) модели для пользователя
9. Кривая принятия решений (Decision curve)
10. Анализ влияния (Impact analysis)

🔥2

110 viewsedited 16:16

статИИстик

О двух больших проблемах прогностических моделей

✅ Bias (смещение, предвзятость) — систематическая ошибка из-за ошибочного моделирования. Смещение описывает, насколько хорошо модель соответствует данным и закономерностям в них. Смещение модели приводит к тому, что итоговый алгоритм содержит в себе неверные связи между входными данными (признаками) и целевыми выходными данными (прогнозами). Модель с высоким риском bias будет иметь высокий риск неверного прогноза при практическом применении, другими словами, не будет эффективной.
Причины смещения:
- Нарушение методологии построения моделей на любом из этапов, начиная с недостаточного размера выборки, заканчивая отсутствием строгой валидации
- Слишком простая модель, которая не отражает тенденции, присутствующие в наборе данных
- Слишком сложная, переобученная модель

✅ Дисперсия (нестабильность) — насколько сильно меняется модель, когда вы обучаете ее, используя разные части тренировочного набора данных. Модель с высокой дисперсией будет иметь широкий диапазон прогноза (доверительный интервал), что также сделает ее неэффективной при практическом применении.
Главная причина нестабильности модели - маленький размер обучающей выборки.

🔥1

116 views16:48

статИИстик

8 алгоритмов, с которых следует начинать изучение машинного обучения. Все они используются в создании прогностических моделей.

🔥1

114 views17:19

статИИстик

#среднийуровень
Однофакторный анализ - не лучший вариант выбора ковариат перед многофакторным анализом (для создания прогностической модели)!

❌ Однофакторный анализ перед многофакторным или метод Хосмера-Лемешоу подразумевает поочередную проверку всех факторов и выбор значимых из них для включения в многофакторную модель. При этом выбор происходит на основании порога значимости для каждой из ковариат, который может быть 0.05, 0.1, 0.2, 0.25, другими словами почти любой. Порог 0.05 приведет к отсеиванию полезных предикторов, но даже порог 0.2-0.25 не гарантирует, что этого не произойдет. Прогностическая модель не обязательно должна включать в себя только значимые ковариаты, скорее наоборот! Еще большее увеличение порога лишает смысла данный подход, так как делает его крайне неспецифичным и неизбирательным. Данный метод, который относится к методам селекции предикторов до этапа моделирования, с большой вероятностью приведет к созданию модели с неоптимальной (не самой эффективной) комбинацией предикторов. Кроме того, при большом числе потенциальных предикторов, такой анализ просто долго делать.
✅ Правильным решением является выбор предикторов в процессе создания модели. Другими словами, в начальную (родительскую) модель включаются все факторы, которые удалось описать. В процессе моделирования модель упрощается путем селекции предикторов, повышающих ее прогностическую эффективность и избавления от неэффективных ковариат.
К таким методам со своими плюсами и минусами относятся: пошаговая регрессия (например, с использованием информационного критерия Акаике - AIC), тест отношения правдоподобия (золотой стандарт), методы регуляризации (регрессия LASSO, гребневая регрессия).

👍1

130 views18:07

статИИстик

🧐 Домашнее задание по математике в китайской начальной школе. Какова высота стола?

124 views13:07

статИИстик

#среднийуровень
Про тест отношения правдоподобия

✅ Правдоподобие (Likelihood) - вероятность гипотезы (их число может быть неограниченным).
✅ Probability – вероятность результата от 0 до 1 (подчиняется законам теории вероятности).
✅ Отношение правдоподобия (фактор Байеса, Likelihood Ratio, LR) – решение о том, какая из гипотез более правдоподобна в эксперименте.

Рассмотрим на примере. Представим, что наша модель прогноза (или диагностический тест) заболевания имеет чувствительность 0.9 и специфичность 0.85 (тогда частота ложноположительных результатов = 1-0.85=0.15). Модель (тест) будет прогнозировать заболевание у пациента, имеющего данное заболевание, в 0.9/0.15 = 6 раз чаще, чем просто случайно. Это и есть LR+ для положительного результата модели (теста).
Другими словами, если до применения модели (теста), вероятность заболевания у пациента расценивалась как 50/50 (50%) или шансы 1:1 (гипотеза А), то после получения результатов о наличии заболевания шансы увеличились до 1*LR=6, а вероятность заболевания составила 6/(1+6) = 86% (гипотеза B). Вероятность гипотезы, что пациент болен увеличилась на 86-50=36% по сравнению с вероятностью гипотезы, что он болен с вероятностью 50%. Или еще раз другими словами отношение для гипотез B и A = 6:1.

Формулы для расчета:
Существует четыре возможных группы больных:
группа a - больные, имеющие положительный результат теста;
группа b - здоровые, имеющие положительный результат теста;
группа c - больные, имеющие отрицательный результат теста;
группа d - здоровые, имеющие отрицательный результат теста;

LR+ = чувствительность/(1-специфичность) = (a/(a+c))/(b/(b+d))
LR- = (1-чувствительность)/специфичность = (c/(a+c))/(d/(b+d))
Дотестовые шансы = дотестовая вероятность/(1-дотестовая вероятность)
Послетестовые шансы = дотестовые шансы * LR+
Послетестовая вероятность = послетестовые шансы/(послетестовые шансы +1)

P.S. Сразу может быть сложно, нужно потренироваться на примерах

👍3

142 viewsedited 19:30

статИИстик

«Одно точное измерение стоит тысячи экспертных мнений», Грэйс Хоппер, одна из пионеров программирования, математик, контр-адмирал флота США

💯1

137 views19:40

статИИстик

Про виды показателей выживаемости в медицине

Цель исследования выживаемости: оценка вероятности (частоты) исхода (смерть / рецидив / событие) во времени
Статистический метод: кривая Каплана-Мейера
Данные: время наблюдения для каждого пациента (дни / месяцы / годы) + исход (1 - исход случился, наблюдение
завершено / 0 - исход не случился, наблюдение цензурировано)

Основные показатели выживаемости:
✅ Общая выживаемость (Overall survival, OS) - время от даты постановки диагноза до даты смерти по любой причине или цензурирования наблюдения.
✅ Выживаемость без прогрессии (Progressive-free survival, PFS) - время от даты рандомизации или начала лечения до даты
прогрессии или смерти по любым причинам или цензурирования наблюдения.
✅ Безрецидивная выживаемость (Disease-free survival, DFS) - время от даты ремиссии или даты окончания лечения до даты рецидива или смерти по любым причинам или цензурирования наблюдения.
✅ Бессобытийная выживаемость (Event-free survival, EFS) - время от даты рандомизации или начала лечения до даты "негативного" события (смерть / прогрессия / тяжелая токсичность или др.) или цензурирования наблюдения.

Дополнительные:
✅ Выживаемость, связанная с заболеванием (Disease-specific survival, DSS) - время от даты постановки диагноза до даты смерти по причине данного заболевания или цензурирования наблюдения.
✅ Выживаемость, свободная от неудач лечения (Failure-free survival, FFS) - время от даты рандомизации или начала лечения до даты "неудачи лечения" (прогрессия / непереносимость терапии).

👍2

177 viewsedited 10:59

статИИстик

Как расчитать референсный интервал (РИ) для лабораторного параметра

✅ Вариант 1. Нормальное распределение. При нормальном или близко к нормальному распределению без выбросов за РИ можно взять интервал в 90%, 95% или 99%. 95% интервал (~2 стандартных отклонения) является наиболее частым и предпочтительным.

✅ Вариант 2. Перцентильный метод. При ненормальном распределении за РИ может быть взят диапазон значений, например, между 2.5 (5) и 97.5 (95) перцентилями. Рекомендуемый размер выборки при этом должен быть не менее 120 значений.

✅ Вариант 3. Бутстрэппинг. Применяется при небольшом размере выборки (<120). Выполняется генерация случайных выборок с последующим использованием того же перцентильного метода.

⚠ Перед расчетом РИ "плохие" (асиметричные) данные могут быть преобразованы, например, через логарифмическое преобразование или преобразование Бокса-Кокса.

159 views19:14

статИИстик

🤖 Возможно кто-то уже слышал, что компания OpenAI предоставила доступ к своему искусственному интеллекту ChatGPT, который может общаться практически на любые темы. Не постеснялся спросить его про один животрепещущий вопрос. Ответ, конечно, не самый профессиональный, но мысли в правильном направлении 😉.

119 views18:43

статИИстик

Про два типа прогностических моделей

✅ Модели-классификаторы. Относят объект (пациента) в одну из групп риска, например, низкий или высокий. Решение всегда принимается на основании порогового значения вероятности (или псевдовероятности), по умолчанию равному 0.5. К ним же относятся системы, построенные на подсчете баллов.
Плюсы:
- удобство в использовании для принятия решений (хотя это грубый подход)

Минусы:
- это не персональный, а коллективный прогноз для данной группы, в которую могут попасть пациенты с сильно различающимся риском
- поиск оптимального порога (cutt-off) - неблагодарное занятие, потому что порог - величина нестабильная, которая меняется вместе с данными, на которых он рассчитан (порог лучше выбирать эмпирически в контексте клинической ситуации и принятия решения, 0.5, 0.8 и т.д.)

Методы оценки качества модели:
- матрица ошибок (точность, чувствительность, специфичность, PPV, NPV, F-мера и др.)

✅ Модели-регрессоры. Рассчитывают персональную истинную вероятность риска прогнозируемого события.
Плюсы:
- персональный прогноз (риск) в %
- расчет истинной или приближенной к истинной апостериорной вероятности (риска) исхода, которая подчиняется закономерностям теории вероятности
- позволяет напрямую принять решение в контексте клинической ситуации и рассчитанной вероятности исхода для конкретного пациента

Минусы:
- требуется анализ и учет калибровки модели
- труднее разработать

Методы оценки качества модели:
- C-статистика (AUC-ROC)
- Калибровочная кривая

P.S. Все модели требуют внутренней и внешней валидации, в идеале - проверки стабильности.

👍1

129 viewsedited 19:43

статИИстик

Почему вам не нужен однофакторный анализ

🙅‍♂️ Однофакторный регрессионный анализ - моделирование ситуации, когда отсутствуют (равны 0) любые другие факторы, влияющие на исход. Это абсолютно искусственная ситуация, не имеющая ничего общего с действительностью. Очевидно, что пациенты всегда имеют другие факторы, которые отличают их друг от друга и могут влиять на изучаемый исход. Например, у всех людей есть пол и возраст. В однофакторном анализе ни то, ни другое не учитывается.

🙅‍♂️ Однофакторный анализ, как этап выбора предикторов, также бесполезен. Его значение не в том, чтобы найти значимые независимые ковариаты (это задача многофакторного анализа), а в том, чтобы уменьшить их число в условиях дефицита данных. При этом приходиться ориентироваться на результаты нереалистичной модели. Кроме того, p-уровень значимости, по которому принимается решение, далеко не идеальный, но единственный в данном случае критерий выбора. Если дефицита данных нет, то такой анализ вам в приниципе не нужен.

👍1

120 viewsedited 18:29

статИИстик

Про p-хакинг

p-хакинг - желание всеми правдами и неправдами получить значение уровня p-значимости <0.05. p-хакинг - побочный эффект самого существования уровня p-значимости, стереотипная и неверная интерпретация которого сводится к различиям между данными, которые обязательно должны быть. Но на самом деле, занимаясь p-хакингом, "исследователь" не доказывает или опровергает научную гипотезу, а лишь пытается получить ложноположительный результат, что является катастрофой для любого научного вывода.

Признаки p-хакинга:
1. Прекращение сбора данных при получении p<0.05
2. Проведение множества измерений, но публикация только тех результатов, у которых p<0.05
3. Использование ковариат, у которых p<0.05
4. Исключение данных, которые мешают достичь p<0.05
5. Трансформация данных с целью получить p<0.05

👍1💯1

129 viewsedited 18:28

статИИстик

Цена дихотомии непрерывных (количественных) переменных

Категоризация (дихотомия) непрерывных переменных, чаще на 2 группы, - популярная тема, если не сказать повальная мода при работе с данными, в частности с медицинскими. Аргументом в пользу такого подхода является то, что это значительно упрощает статистический анализ и интерпретацию и представление результатов. Например, бинарное разделение количественной переменной позволяет сравнить группы с помощью t-теста или Хи2.

На самом деле вы получаете кучу проблем 💩:
1. Большая часть информации теряется, поэтому статистическая мощность для обнаружения связи между переменной и исходом пациента снижается. Дихотомия переменной по медиане снижает мощность на ту же величину, что и отбрасывание трети данных, что нецелесообразно, когда данных и так обычно мало.
2. Может, наоброт, повысится риск ложноположительного результата (ошибка I рода)
3. Недооценка степени различий между группами. Пациенты, близкие к точке отсечения, но находящиеся по разные стороны от нее, характеризуются как очень разные, а на самом деле они очень похожи!
4. Дихотомия нарушает любую линейную взаимосвязь между результатами, а при ее наличии гораздо эффективнее воспользоваться той же линейной регрессией.

Виды порогов (точек отсечения), которые используются при дихотомии:
1. Общепризнанные пороги, например, ИМТ 25 кг/м2 (на самом деле никаких математических оснований для данного порога никогда не существовало)
2. Точка отсечения из прошлого похожего исследования (скорее всего она неверна, поэтому ошибетесь и вы)
3. Выборочная медиана (только вот в разных выборках медианы будут разные)
4. Использование так называемой «оптимальной» точки отсечения (обычно дающей минимальное значение p-значимости), расчитанной разными способами (например, ROC-анализом). Очень высокий риск ложноположительного результата! Никогда не используйте данную стратегию!

Вместо категоризации непрерывных переменных сохраняйте их непрерывными - это лучшая стратегия!

👍6

132 viewsedited 18:48

About

Blog

Apps

Platform