Про дисбаланс данных
Несбалансированность данных - проблема классификации или прогноза исхода, когда прогнозируемый класс (исход) не представлен в одинаковой пропорции с другими классами. Например, вы хотите прогнозировать некое событие, а его частота в выборке составляет только 1%. В целом проблемы могут уже начаться, если дисбаланс 1:4 или выражен сильнее.
Что делать в таком случае:
✅ Ничего не делать и посмотреть получится ли у вас хорошая модель. При определенных обстоятельствах дисбаланс может не повлиять на качество результата
✅ Собрать больше данных по несбалансированному классу
✅ Объединить слабо представленный класс с другими (если есть) в новый (общий) для его последующего прогнозирования
✅ Если у вас много данных, уровняйте классы путем создания новой случайной выборки в нужном вам соотношении
✅ Методы сэмплирования (SMOTE, ROSE ...) - искусственное дублирование наблюдений из редкого класса или удаление части наблюдений из популярного класса
✅ Использование алгоритмов, малочувствительных к дисбалансу. Например, деревья решений
✅ Синтез искусственных данных на основе имеющихся реальных
Несбалансированность данных - проблема классификации или прогноза исхода, когда прогнозируемый класс (исход) не представлен в одинаковой пропорции с другими классами. Например, вы хотите прогнозировать некое событие, а его частота в выборке составляет только 1%. В целом проблемы могут уже начаться, если дисбаланс 1:4 или выражен сильнее.
Что делать в таком случае:
✅ Ничего не делать и посмотреть получится ли у вас хорошая модель. При определенных обстоятельствах дисбаланс может не повлиять на качество результата
✅ Собрать больше данных по несбалансированному классу
✅ Объединить слабо представленный класс с другими (если есть) в новый (общий) для его последующего прогнозирования
✅ Если у вас много данных, уровняйте классы путем создания новой случайной выборки в нужном вам соотношении
✅ Методы сэмплирования (SMOTE, ROSE ...) - искусственное дублирование наблюдений из редкого класса или удаление части наблюдений из популярного класса
✅ Использование алгоритмов, малочувствительных к дисбалансу. Например, деревья решений
✅ Синтез искусственных данных на основе имеющихся реальных
👍1
Я хочу сделать прогностическую модель. Какие знания мне нужны? Вот эти:
1. Расчет минимального размера выборки (данных много не бывает!)
2. Селекция предикторов (до-, во время-, после построения модели)
3. Выбор алгоритма модели и допущения к методу (их очень много, часто используемый - логистическая регрессия)
4. Внутренняя валидация модели (бутстрэп, кросс-валидация)
5. Калибровка модели (калибровочная кривая)
6. Проверка стабильности модели (график нестабильности)
7. Внешняя валидация модели
Дополнительно:
8. Презентация (визуализация) модели для пользователя
9. Кривая принятия решений (Decision curve)
10. Анализ влияния (Impact analysis)
1. Расчет минимального размера выборки (данных много не бывает!)
2. Селекция предикторов (до-, во время-, после построения модели)
3. Выбор алгоритма модели и допущения к методу (их очень много, часто используемый - логистическая регрессия)
4. Внутренняя валидация модели (бутстрэп, кросс-валидация)
5. Калибровка модели (калибровочная кривая)
6. Проверка стабильности модели (график нестабильности)
7. Внешняя валидация модели
Дополнительно:
8. Презентация (визуализация) модели для пользователя
9. Кривая принятия решений (Decision curve)
10. Анализ влияния (Impact analysis)
🔥2
О двух больших проблемах прогностических моделей
✅ Bias (смещение, предвзятость) — систематическая ошибка из-за ошибочного моделирования. Смещение описывает, насколько хорошо модель соответствует данным и закономерностям в них. Смещение модели приводит к тому, что итоговый алгоритм содержит в себе неверные связи между входными данными (признаками) и целевыми выходными данными (прогнозами). Модель с высоким риском bias будет иметь высокий риск неверного прогноза при практическом применении, другими словами, не будет эффективной.
Причины смещения:
- Нарушение методологии построения моделей на любом из этапов, начиная с недостаточного размера выборки, заканчивая отсутствием строгой валидации
- Слишком простая модель, которая не отражает тенденции, присутствующие в наборе данных
- Слишком сложная, переобученная модель
✅ Дисперсия (нестабильность) — насколько сильно меняется модель, когда вы обучаете ее, используя разные части тренировочного набора данных. Модель с высокой дисперсией будет иметь широкий диапазон прогноза (доверительный интервал), что также сделает ее неэффективной при практическом применении.
Главная причина нестабильности модели - маленький размер обучающей выборки.
✅ Bias (смещение, предвзятость) — систематическая ошибка из-за ошибочного моделирования. Смещение описывает, насколько хорошо модель соответствует данным и закономерностям в них. Смещение модели приводит к тому, что итоговый алгоритм содержит в себе неверные связи между входными данными (признаками) и целевыми выходными данными (прогнозами). Модель с высоким риском bias будет иметь высокий риск неверного прогноза при практическом применении, другими словами, не будет эффективной.
Причины смещения:
- Нарушение методологии построения моделей на любом из этапов, начиная с недостаточного размера выборки, заканчивая отсутствием строгой валидации
- Слишком простая модель, которая не отражает тенденции, присутствующие в наборе данных
- Слишком сложная, переобученная модель
✅ Дисперсия (нестабильность) — насколько сильно меняется модель, когда вы обучаете ее, используя разные части тренировочного набора данных. Модель с высокой дисперсией будет иметь широкий диапазон прогноза (доверительный интервал), что также сделает ее неэффективной при практическом применении.
Главная причина нестабильности модели - маленький размер обучающей выборки.
🔥1
#среднийуровень
Однофакторный анализ - не лучший вариант выбора ковариат перед многофакторным анализом (для создания прогностической модели)!
❌ Однофакторный анализ перед многофакторным или метод Хосмера-Лемешоу подразумевает поочередную проверку всех факторов и выбор значимых из них для включения в многофакторную модель. При этом выбор происходит на основании порога значимости для каждой из ковариат, который может быть 0.05, 0.1, 0.2, 0.25, другими словами почти любой. Порог 0.05 приведет к отсеиванию полезных предикторов, но даже порог 0.2-0.25 не гарантирует, что этого не произойдет. Прогностическая модель не обязательно должна включать в себя только значимые ковариаты, скорее наоборот! Еще большее увеличение порога лишает смысла данный подход, так как делает его крайне неспецифичным и неизбирательным. Данный метод, который относится к методам селекции предикторов до этапа моделирования, с большой вероятностью приведет к созданию модели с неоптимальной (не самой эффективной) комбинацией предикторов. Кроме того, при большом числе потенциальных предикторов, такой анализ просто долго делать.
✅ Правильным решением является выбор предикторов в процессе создания модели. Другими словами, в начальную (родительскую) модель включаются все факторы, которые удалось описать. В процессе моделирования модель упрощается путем селекции предикторов, повышающих ее прогностическую эффективность и избавления от неэффективных ковариат.
К таким методам со своими плюсами и минусами относятся: пошаговая регрессия (например, с использованием информационного критерия Акаике - AIC), тест отношения правдоподобия (золотой стандарт), методы регуляризации (регрессия LASSO, гребневая регрессия).
Однофакторный анализ - не лучший вариант выбора ковариат перед многофакторным анализом (для создания прогностической модели)!
❌ Однофакторный анализ перед многофакторным или метод Хосмера-Лемешоу подразумевает поочередную проверку всех факторов и выбор значимых из них для включения в многофакторную модель. При этом выбор происходит на основании порога значимости для каждой из ковариат, который может быть 0.05, 0.1, 0.2, 0.25, другими словами почти любой. Порог 0.05 приведет к отсеиванию полезных предикторов, но даже порог 0.2-0.25 не гарантирует, что этого не произойдет. Прогностическая модель не обязательно должна включать в себя только значимые ковариаты, скорее наоборот! Еще большее увеличение порога лишает смысла данный подход, так как делает его крайне неспецифичным и неизбирательным. Данный метод, который относится к методам селекции предикторов до этапа моделирования, с большой вероятностью приведет к созданию модели с неоптимальной (не самой эффективной) комбинацией предикторов. Кроме того, при большом числе потенциальных предикторов, такой анализ просто долго делать.
✅ Правильным решением является выбор предикторов в процессе создания модели. Другими словами, в начальную (родительскую) модель включаются все факторы, которые удалось описать. В процессе моделирования модель упрощается путем селекции предикторов, повышающих ее прогностическую эффективность и избавления от неэффективных ковариат.
К таким методам со своими плюсами и минусами относятся: пошаговая регрессия (например, с использованием информационного критерия Акаике - AIC), тест отношения правдоподобия (золотой стандарт), методы регуляризации (регрессия LASSO, гребневая регрессия).
👍1
#среднийуровень
Про тест отношения правдоподобия
✅ Правдоподобие (Likelihood) - вероятность гипотезы (их число может быть неограниченным).
✅ Probability – вероятность результата от 0 до 1 (подчиняется законам теории вероятности).
✅ Отношение правдоподобия (фактор Байеса, Likelihood Ratio, LR) – решение о том, какая из гипотез более правдоподобна в эксперименте.
Рассмотрим на примере. Представим, что наша модель прогноза (или диагностический тест) заболевания имеет чувствительность 0.9 и специфичность 0.85 (тогда частота ложноположительных результатов = 1-0.85=0.15). Модель (тест) будет прогнозировать заболевание у пациента, имеющего данное заболевание, в 0.9/0.15 = 6 раз чаще, чем просто случайно. Это и есть LR+ для положительного результата модели (теста).
Другими словами, если до применения модели (теста), вероятность заболевания у пациента расценивалась как 50/50 (50%) или шансы 1:1 (гипотеза А), то после получения результатов о наличии заболевания шансы увеличились до 1*LR=6, а вероятность заболевания составила 6/(1+6) = 86% (гипотеза B). Вероятность гипотезы, что пациент болен увеличилась на 86-50=36% по сравнению с вероятностью гипотезы, что он болен с вероятностью 50%. Или еще раз другими словами отношение для гипотез B и A = 6:1.
Формулы для расчета:
Существует четыре возможных группы больных:
группа a - больные, имеющие положительный результат теста;
группа b - здоровые, имеющие положительный результат теста;
группа c - больные, имеющие отрицательный результат теста;
группа d - здоровые, имеющие отрицательный результат теста;
LR+ = чувствительность/(1-специфичность) = (a/(a+c))/(b/(b+d))
LR- = (1-чувствительность)/специфичность = (c/(a+c))/(d/(b+d))
Дотестовые шансы = дотестовая вероятность/(1-дотестовая вероятность)
Послетестовые шансы = дотестовые шансы * LR+
Послетестовая вероятность = послетестовые шансы/(послетестовые шансы +1)
P.S. Сразу может быть сложно, нужно потренироваться на примерах
Про тест отношения правдоподобия
✅ Правдоподобие (Likelihood) - вероятность гипотезы (их число может быть неограниченным).
✅ Probability – вероятность результата от 0 до 1 (подчиняется законам теории вероятности).
✅ Отношение правдоподобия (фактор Байеса, Likelihood Ratio, LR) – решение о том, какая из гипотез более правдоподобна в эксперименте.
Рассмотрим на примере. Представим, что наша модель прогноза (или диагностический тест) заболевания имеет чувствительность 0.9 и специфичность 0.85 (тогда частота ложноположительных результатов = 1-0.85=0.15). Модель (тест) будет прогнозировать заболевание у пациента, имеющего данное заболевание, в 0.9/0.15 = 6 раз чаще, чем просто случайно. Это и есть LR+ для положительного результата модели (теста).
Другими словами, если до применения модели (теста), вероятность заболевания у пациента расценивалась как 50/50 (50%) или шансы 1:1 (гипотеза А), то после получения результатов о наличии заболевания шансы увеличились до 1*LR=6, а вероятность заболевания составила 6/(1+6) = 86% (гипотеза B). Вероятность гипотезы, что пациент болен увеличилась на 86-50=36% по сравнению с вероятностью гипотезы, что он болен с вероятностью 50%. Или еще раз другими словами отношение для гипотез B и A = 6:1.
Формулы для расчета:
Существует четыре возможных группы больных:
группа a - больные, имеющие положительный результат теста;
группа b - здоровые, имеющие положительный результат теста;
группа c - больные, имеющие отрицательный результат теста;
группа d - здоровые, имеющие отрицательный результат теста;
LR+ = чувствительность/(1-специфичность) = (a/(a+c))/(b/(b+d))
LR- = (1-чувствительность)/специфичность = (c/(a+c))/(d/(b+d))
Дотестовые шансы = дотестовая вероятность/(1-дотестовая вероятность)
Послетестовые шансы = дотестовые шансы * LR+
Послетестовая вероятность = послетестовые шансы/(послетестовые шансы +1)
P.S. Сразу может быть сложно, нужно потренироваться на примерах
👍3
Про виды показателей выживаемости в медицине
Цель исследования выживаемости: оценка вероятности (частоты) исхода (смерть / рецидив / событие) во времени
Статистический метод: кривая Каплана-Мейера
Данные: время наблюдения для каждого пациента (дни / месяцы / годы) + исход (1 - исход случился, наблюдение
завершено / 0 - исход не случился, наблюдение цензурировано)
Основные показатели выживаемости:
✅ Общая выживаемость (Overall survival, OS) - время от даты постановки диагноза до даты смерти по любой причине или цензурирования наблюдения.
✅ Выживаемость без прогрессии (Progressive-free survival, PFS) - время от даты рандомизации или начала лечения до даты
прогрессии или смерти по любым причинам или цензурирования наблюдения.
✅ Безрецидивная выживаемость (Disease-free survival, DFS) - время от даты ремиссии или даты окончания лечения до даты рецидива или смерти по любым причинам или цензурирования наблюдения.
✅ Бессобытийная выживаемость (Event-free survival, EFS) - время от даты рандомизации или начала лечения до даты "негативного" события (смерть / прогрессия / тяжелая токсичность или др.) или цензурирования наблюдения.
Дополнительные:
✅ Выживаемость, связанная с заболеванием (Disease-specific survival, DSS) - время от даты постановки диагноза до даты смерти по причине данного заболевания или цензурирования наблюдения.
✅ Выживаемость, свободная от неудач лечения (Failure-free survival, FFS) - время от даты рандомизации или начала лечения до даты "неудачи лечения" (прогрессия / непереносимость терапии).
Цель исследования выживаемости: оценка вероятности (частоты) исхода (смерть / рецидив / событие) во времени
Статистический метод: кривая Каплана-Мейера
Данные: время наблюдения для каждого пациента (дни / месяцы / годы) + исход (1 - исход случился, наблюдение
завершено / 0 - исход не случился, наблюдение цензурировано)
Основные показатели выживаемости:
✅ Общая выживаемость (Overall survival, OS) - время от даты постановки диагноза до даты смерти по любой причине или цензурирования наблюдения.
✅ Выживаемость без прогрессии (Progressive-free survival, PFS) - время от даты рандомизации или начала лечения до даты
прогрессии или смерти по любым причинам или цензурирования наблюдения.
✅ Безрецидивная выживаемость (Disease-free survival, DFS) - время от даты ремиссии или даты окончания лечения до даты рецидива или смерти по любым причинам или цензурирования наблюдения.
✅ Бессобытийная выживаемость (Event-free survival, EFS) - время от даты рандомизации или начала лечения до даты "негативного" события (смерть / прогрессия / тяжелая токсичность или др.) или цензурирования наблюдения.
Дополнительные:
✅ Выживаемость, связанная с заболеванием (Disease-specific survival, DSS) - время от даты постановки диагноза до даты смерти по причине данного заболевания или цензурирования наблюдения.
✅ Выживаемость, свободная от неудач лечения (Failure-free survival, FFS) - время от даты рандомизации или начала лечения до даты "неудачи лечения" (прогрессия / непереносимость терапии).
👍2
Как расчитать референсный интервал (РИ) для лабораторного параметра
✅ Вариант 1. Нормальное распределение. При нормальном или близко к нормальному распределению без выбросов за РИ можно взять интервал в 90%, 95% или 99%. 95% интервал (~2 стандартных отклонения) является наиболее частым и предпочтительным.
✅ Вариант 2. Перцентильный метод. При ненормальном распределении за РИ может быть взят диапазон значений, например, между 2.5 (5) и 97.5 (95) перцентилями. Рекомендуемый размер выборки при этом должен быть не менее 120 значений.
✅ Вариант 3. Бутстрэппинг. Применяется при небольшом размере выборки (<120). Выполняется генерация случайных выборок с последующим использованием того же перцентильного метода.
⚠ Перед расчетом РИ "плохие" (асиметричные) данные могут быть преобразованы, например, через логарифмическое преобразование или преобразование Бокса-Кокса.
✅ Вариант 1. Нормальное распределение. При нормальном или близко к нормальному распределению без выбросов за РИ можно взять интервал в 90%, 95% или 99%. 95% интервал (~2 стандартных отклонения) является наиболее частым и предпочтительным.
✅ Вариант 2. Перцентильный метод. При ненормальном распределении за РИ может быть взят диапазон значений, например, между 2.5 (5) и 97.5 (95) перцентилями. Рекомендуемый размер выборки при этом должен быть не менее 120 значений.
✅ Вариант 3. Бутстрэппинг. Применяется при небольшом размере выборки (<120). Выполняется генерация случайных выборок с последующим использованием того же перцентильного метода.
⚠ Перед расчетом РИ "плохие" (асиметричные) данные могут быть преобразованы, например, через логарифмическое преобразование или преобразование Бокса-Кокса.
🤖 Возможно кто-то уже слышал, что компания OpenAI предоставила доступ к своему искусственному интеллекту ChatGPT, который может общаться практически на любые темы. Не постеснялся спросить его про один животрепещущий вопрос. Ответ, конечно, не самый профессиональный, но мысли в правильном направлении 😉.
Про два типа прогностических моделей
✅ Модели-классификаторы. Относят объект (пациента) в одну из групп риска, например, низкий или высокий. Решение всегда принимается на основании порогового значения вероятности (или псевдовероятности), по умолчанию равному 0.5. К ним же относятся системы, построенные на подсчете баллов.
Плюсы:
- удобство в использовании для принятия решений (хотя это грубый подход)
Минусы:
- это не персональный, а коллективный прогноз для данной группы, в которую могут попасть пациенты с сильно различающимся риском
- поиск оптимального порога (cutt-off) - неблагодарное занятие, потому что порог - величина нестабильная, которая меняется вместе с данными, на которых он рассчитан (порог лучше выбирать эмпирически в контексте клинической ситуации и принятия решения, 0.5, 0.8 и т.д.)
Методы оценки качества модели:
- матрица ошибок (точность, чувствительность, специфичность, PPV, NPV, F-мера и др.)
✅ Модели-регрессоры. Рассчитывают персональную истинную вероятность риска прогнозируемого события.
Плюсы:
- персональный прогноз (риск) в %
- расчет истинной или приближенной к истинной апостериорной вероятности (риска) исхода, которая подчиняется закономерностям теории вероятности
- позволяет напрямую принять решение в контексте клинической ситуации и рассчитанной вероятности исхода для конкретного пациента
Минусы:
- требуется анализ и учет калибровки модели
- труднее разработать
Методы оценки качества модели:
- C-статистика (AUC-ROC)
- Калибровочная кривая
P.S. Все модели требуют внутренней и внешней валидации, в идеале - проверки стабильности.
✅ Модели-классификаторы. Относят объект (пациента) в одну из групп риска, например, низкий или высокий. Решение всегда принимается на основании порогового значения вероятности (или псевдовероятности), по умолчанию равному 0.5. К ним же относятся системы, построенные на подсчете баллов.
Плюсы:
- удобство в использовании для принятия решений (хотя это грубый подход)
Минусы:
- это не персональный, а коллективный прогноз для данной группы, в которую могут попасть пациенты с сильно различающимся риском
- поиск оптимального порога (cutt-off) - неблагодарное занятие, потому что порог - величина нестабильная, которая меняется вместе с данными, на которых он рассчитан (порог лучше выбирать эмпирически в контексте клинической ситуации и принятия решения, 0.5, 0.8 и т.д.)
Методы оценки качества модели:
- матрица ошибок (точность, чувствительность, специфичность, PPV, NPV, F-мера и др.)
✅ Модели-регрессоры. Рассчитывают персональную истинную вероятность риска прогнозируемого события.
Плюсы:
- персональный прогноз (риск) в %
- расчет истинной или приближенной к истинной апостериорной вероятности (риска) исхода, которая подчиняется закономерностям теории вероятности
- позволяет напрямую принять решение в контексте клинической ситуации и рассчитанной вероятности исхода для конкретного пациента
Минусы:
- требуется анализ и учет калибровки модели
- труднее разработать
Методы оценки качества модели:
- C-статистика (AUC-ROC)
- Калибровочная кривая
P.S. Все модели требуют внутренней и внешней валидации, в идеале - проверки стабильности.
👍1
Почему вам не нужен однофакторный анализ
🙅♂️ Однофакторный регрессионный анализ - моделирование ситуации, когда отсутствуют (равны 0) любые другие факторы, влияющие на исход. Это абсолютно искусственная ситуация, не имеющая ничего общего с действительностью. Очевидно, что пациенты всегда имеют другие факторы, которые отличают их друг от друга и могут влиять на изучаемый исход. Например, у всех людей есть пол и возраст. В однофакторном анализе ни то, ни другое не учитывается.
🙅♂️ Однофакторный анализ, как этап выбора предикторов, также бесполезен. Его значение не в том, чтобы найти значимые независимые ковариаты (это задача многофакторного анализа), а в том, чтобы уменьшить их число в условиях дефицита данных. При этом приходиться ориентироваться на результаты нереалистичной модели. Кроме того, p-уровень значимости, по которому принимается решение, далеко не идеальный, но единственный в данном случае критерий выбора. Если дефицита данных нет, то такой анализ вам в приниципе не нужен.
🙅♂️ Однофакторный регрессионный анализ - моделирование ситуации, когда отсутствуют (равны 0) любые другие факторы, влияющие на исход. Это абсолютно искусственная ситуация, не имеющая ничего общего с действительностью. Очевидно, что пациенты всегда имеют другие факторы, которые отличают их друг от друга и могут влиять на изучаемый исход. Например, у всех людей есть пол и возраст. В однофакторном анализе ни то, ни другое не учитывается.
🙅♂️ Однофакторный анализ, как этап выбора предикторов, также бесполезен. Его значение не в том, чтобы найти значимые независимые ковариаты (это задача многофакторного анализа), а в том, чтобы уменьшить их число в условиях дефицита данных. При этом приходиться ориентироваться на результаты нереалистичной модели. Кроме того, p-уровень значимости, по которому принимается решение, далеко не идеальный, но единственный в данном случае критерий выбора. Если дефицита данных нет, то такой анализ вам в приниципе не нужен.
👍1
Про p-хакинг
p-хакинг - желание всеми правдами и неправдами получить значение уровня p-значимости <0.05. p-хакинг - побочный эффект самого существования уровня p-значимости, стереотипная и неверная интерпретация которого сводится к различиям между данными, которые обязательно должны быть. Но на самом деле, занимаясь p-хакингом, "исследователь" не доказывает или опровергает научную гипотезу, а лишь пытается получить ложноположительный результат, что является катастрофой для любого научного вывода.
Признаки p-хакинга:
1. Прекращение сбора данных при получении p<0.05
2. Проведение множества измерений, но публикация только тех результатов, у которых p<0.05
3. Использование ковариат, у которых p<0.05
4. Исключение данных, которые мешают достичь p<0.05
5. Трансформация данных с целью получить p<0.05
p-хакинг - желание всеми правдами и неправдами получить значение уровня p-значимости <0.05. p-хакинг - побочный эффект самого существования уровня p-значимости, стереотипная и неверная интерпретация которого сводится к различиям между данными, которые обязательно должны быть. Но на самом деле, занимаясь p-хакингом, "исследователь" не доказывает или опровергает научную гипотезу, а лишь пытается получить ложноположительный результат, что является катастрофой для любого научного вывода.
Признаки p-хакинга:
1. Прекращение сбора данных при получении p<0.05
2. Проведение множества измерений, но публикация только тех результатов, у которых p<0.05
3. Использование ковариат, у которых p<0.05
4. Исключение данных, которые мешают достичь p<0.05
5. Трансформация данных с целью получить p<0.05
👍1💯1
Цена дихотомии непрерывных (количественных) переменных
Категоризация (дихотомия) непрерывных переменных, чаще на 2 группы, - популярная тема, если не сказать повальная мода при работе с данными, в частности с медицинскими. Аргументом в пользу такого подхода является то, что это значительно упрощает статистический анализ и интерпретацию и представление результатов. Например, бинарное разделение количественной переменной позволяет сравнить группы с помощью t-теста или Хи2.
На самом деле вы получаете кучу проблем 💩:
1. Большая часть информации теряется, поэтому статистическая мощность для обнаружения связи между переменной и исходом пациента снижается. Дихотомия переменной по медиане снижает мощность на ту же величину, что и отбрасывание трети данных, что нецелесообразно, когда данных и так обычно мало.
2. Может, наоброт, повысится риск ложноположительного результата (ошибка I рода)
3. Недооценка степени различий между группами. Пациенты, близкие к точке отсечения, но находящиеся по разные стороны от нее, характеризуются как очень разные, а на самом деле они очень похожи!
4. Дихотомия нарушает любую линейную взаимосвязь между результатами, а при ее наличии гораздо эффективнее воспользоваться той же линейной регрессией.
Виды порогов (точек отсечения), которые используются при дихотомии:
1. Общепризнанные пороги, например, ИМТ 25 кг/м2 (на самом деле никаких математических оснований для данного порога никогда не существовало)
2. Точка отсечения из прошлого похожего исследования (скорее всего она неверна, поэтому ошибетесь и вы)
3. Выборочная медиана (только вот в разных выборках медианы будут разные)
4. Использование так называемой «оптимальной» точки отсечения (обычно дающей минимальное значение p-значимости), расчитанной разными способами (например, ROC-анализом). Очень высокий риск ложноположительного результата! Никогда не используйте данную стратегию!
Вместо категоризации непрерывных переменных сохраняйте их непрерывными - это лучшая стратегия!
Категоризация (дихотомия) непрерывных переменных, чаще на 2 группы, - популярная тема, если не сказать повальная мода при работе с данными, в частности с медицинскими. Аргументом в пользу такого подхода является то, что это значительно упрощает статистический анализ и интерпретацию и представление результатов. Например, бинарное разделение количественной переменной позволяет сравнить группы с помощью t-теста или Хи2.
На самом деле вы получаете кучу проблем 💩:
1. Большая часть информации теряется, поэтому статистическая мощность для обнаружения связи между переменной и исходом пациента снижается. Дихотомия переменной по медиане снижает мощность на ту же величину, что и отбрасывание трети данных, что нецелесообразно, когда данных и так обычно мало.
2. Может, наоброт, повысится риск ложноположительного результата (ошибка I рода)
3. Недооценка степени различий между группами. Пациенты, близкие к точке отсечения, но находящиеся по разные стороны от нее, характеризуются как очень разные, а на самом деле они очень похожи!
4. Дихотомия нарушает любую линейную взаимосвязь между результатами, а при ее наличии гораздо эффективнее воспользоваться той же линейной регрессией.
Виды порогов (точек отсечения), которые используются при дихотомии:
1. Общепризнанные пороги, например, ИМТ 25 кг/м2 (на самом деле никаких математических оснований для данного порога никогда не существовало)
2. Точка отсечения из прошлого похожего исследования (скорее всего она неверна, поэтому ошибетесь и вы)
3. Выборочная медиана (только вот в разных выборках медианы будут разные)
4. Использование так называемой «оптимальной» точки отсечения (обычно дающей минимальное значение p-значимости), расчитанной разными способами (например, ROC-анализом). Очень высокий риск ложноположительного результата! Никогда не используйте данную стратегию!
Вместо категоризации непрерывных переменных сохраняйте их непрерывными - это лучшая стратегия!
👍6
✍ Для экстраполяции результатов выборочной совокупности на генеральную (популяцию) мы должны оперировать интервалами неопределенности, в которые превращаются все частоты, медианы, средние, кривые выживаемости и т.д. Эти интервалы тем больше, чем меньше выборочная совокупность. В статистике, использующей частотный подход (классическая статистика) и байесовский подход (байесовская статистика) к теории вероятности, применяются на первый взгляд схожие, но разные интервалы неопределенности.
✅ Частотный подоход. Вероятность интерпретируется как утверждение о том, как часто должно происходить событие при многократных попытках.
95% Confidence interval (доверительный интервал) - если мы повторим эксперимент много раз, 95% значений результата будут находиться в данном интервале.
p-уровень значимости говорит нам о вероятности повторения таких же или более экстремальных результатов эксперимента при гипотетической верности нулевой гипотезы.
Все это не очень интуитивно понятно, тем не менее этим пользуется большинство исследователей.
✅ Байесовский подход интерпретирует вероятность как результат логических рассуждений о природе вещей и явлений. Такой подход становится весомее и более значимым при описании сложных моделей и явлений, нашей жизни в конце концов. Он позволяет не просто делать отдельные прогнозы, но и давать степень уверенности в прогнозах, находящихся в широком наборе вариантов. Байесовская статистика сообщает апостериорную вероятность события или явления в прямом понимании слова "вероятность". Это интуитивно более понятные вещи, тем не менее они менее распространены среди исследователей.
95% Credible interval (интервал достоверности, уверенности) - 95% вероятность, что результат в генеральной совокупности (популяции) будет находиться в данном интервале.
✅ Частотный подоход. Вероятность интерпретируется как утверждение о том, как часто должно происходить событие при многократных попытках.
95% Confidence interval (доверительный интервал) - если мы повторим эксперимент много раз, 95% значений результата будут находиться в данном интервале.
p-уровень значимости говорит нам о вероятности повторения таких же или более экстремальных результатов эксперимента при гипотетической верности нулевой гипотезы.
Все это не очень интуитивно понятно, тем не менее этим пользуется большинство исследователей.
✅ Байесовский подход интерпретирует вероятность как результат логических рассуждений о природе вещей и явлений. Такой подход становится весомее и более значимым при описании сложных моделей и явлений, нашей жизни в конце концов. Он позволяет не просто делать отдельные прогнозы, но и давать степень уверенности в прогнозах, находящихся в широком наборе вариантов. Байесовская статистика сообщает апостериорную вероятность события или явления в прямом понимании слова "вероятность". Это интуитивно более понятные вещи, тем не менее они менее распространены среди исследователей.
95% Credible interval (интервал достоверности, уверенности) - 95% вероятность, что результат в генеральной совокупности (популяции) будет находиться в данном интервале.
👍2
Про Data Science
Data Science или наука о данных - дисциплина или область знаний, целью которой является извлечение пользы из данных. Включает в себя следующие разделы:
✅ Описательная статистика или аналитика (Descriptive Analytics и Data Mining) - сбор данных и разведочный анализ, предназначенный для обнаружения в данных закономерностей, формулировки гипотез в отношении процессов, вызывающих эти закономерности. На этом этапе не делаются выводы, а происходит поиск паттернов (закономерностей) в имеющихся данных, описывается и сравнивается их распределение.
✅ Статистический вывод (Statistical Inference) - принятие одного или нескольких решений с учетом неопределенности в отношении того, как и насколько хорошо проанализированные нами данные описывают соответствующую генеральную совокупность. На этом этапе делаются выводы, описываются причинно-следственные связи.
✅ Машинное обучение / искусственный интеллект (Machine Learning / Artificial Intelligence) - создание моделей и алгоритмов, которые можно использовать для принятия решений.
Data Science или наука о данных - дисциплина или область знаний, целью которой является извлечение пользы из данных. Включает в себя следующие разделы:
✅ Описательная статистика или аналитика (Descriptive Analytics и Data Mining) - сбор данных и разведочный анализ, предназначенный для обнаружения в данных закономерностей, формулировки гипотез в отношении процессов, вызывающих эти закономерности. На этом этапе не делаются выводы, а происходит поиск паттернов (закономерностей) в имеющихся данных, описывается и сравнивается их распределение.
✅ Статистический вывод (Statistical Inference) - принятие одного или нескольких решений с учетом неопределенности в отношении того, как и насколько хорошо проанализированные нами данные описывают соответствующую генеральную совокупность. На этом этапе делаются выводы, описываются причинно-следственные связи.
✅ Машинное обучение / искусственный интеллект (Machine Learning / Artificial Intelligence) - создание моделей и алгоритмов, которые можно использовать для принятия решений.
👍1
Про статистические парадоксы
✅ Скрытая переменная. Прямая корреляция между переменными, которые по логике рассуждения должны коррелировать обратно или в целом не иметь причино-следственной связи.
Пример: вес пациента коррелирует с риском осложнений от проводимой химиотерапии. На самом деле риск связан с дозами лекарственных препаратов, которые увеличиваются с весом пациента.
Причина: наличие скрытой переменной, которую не учли.
✅ Парадокс Берксона ("смещение коллайдера"). Обратная взаимосвязь между переменными, противоречащая причино-следственной логике.
Пример: курение сигарет может защитить от COVID-19 (доля курильщиков среди тех, кто госпитализирован с COVID-19, была ниже, чем в целом в популяции). Например, в Китае, около 8% людей, находящихся в больнице с COVID-19, были курильщиками, а всего курят 26% населения.
Причина: анализ проводился только среди госпитализированных больных. Госпитализация - "переменная-коллайдер", с которой независимо друг от друга связаны как течение COVID-19, так и курение через другие заболевания легких и сердца. Таким образом, оба эти фактора повлияли на попадание пациента в выборку для анализа, которая не является случайной выборкой населения в целом. Тесты на COVID-19 у этих госпитализированных больных, вероятно, покажут более низкий уровень заражения среди курильщиков, чем среди некурящих, потому что первые также госпитализируются из-за заболеваний, связанных с курением, а не только с COVID-19. Это может объяснить отчеты нескольких исследований, в которых утверждается, что курение может защитить от инфекции COVID-19.
✅ Парадокс Симпсона. Тенденция, наблюдаемая в разных подгруппах, меняется на противоположную, когда эти группы объединяются.
Пример: положительный коэффициент регрессии переменной в однофактороном анализе меняется на отрицательный во многофакторном.
Причины: дисбаланс классов, маленький размер выборки, мультиколинеарность
✅ Скрытая переменная. Прямая корреляция между переменными, которые по логике рассуждения должны коррелировать обратно или в целом не иметь причино-следственной связи.
Пример: вес пациента коррелирует с риском осложнений от проводимой химиотерапии. На самом деле риск связан с дозами лекарственных препаратов, которые увеличиваются с весом пациента.
Причина: наличие скрытой переменной, которую не учли.
✅ Парадокс Берксона ("смещение коллайдера"). Обратная взаимосвязь между переменными, противоречащая причино-следственной логике.
Пример: курение сигарет может защитить от COVID-19 (доля курильщиков среди тех, кто госпитализирован с COVID-19, была ниже, чем в целом в популяции). Например, в Китае, около 8% людей, находящихся в больнице с COVID-19, были курильщиками, а всего курят 26% населения.
Причина: анализ проводился только среди госпитализированных больных. Госпитализация - "переменная-коллайдер", с которой независимо друг от друга связаны как течение COVID-19, так и курение через другие заболевания легких и сердца. Таким образом, оба эти фактора повлияли на попадание пациента в выборку для анализа, которая не является случайной выборкой населения в целом. Тесты на COVID-19 у этих госпитализированных больных, вероятно, покажут более низкий уровень заражения среди курильщиков, чем среди некурящих, потому что первые также госпитализируются из-за заболеваний, связанных с курением, а не только с COVID-19. Это может объяснить отчеты нескольких исследований, в которых утверждается, что курение может защитить от инфекции COVID-19.
✅ Парадокс Симпсона. Тенденция, наблюдаемая в разных подгруппах, меняется на противоположную, когда эти группы объединяются.
Пример: положительный коэффициент регрессии переменной в однофактороном анализе меняется на отрицательный во многофакторном.
Причины: дисбаланс классов, маленький размер выборки, мультиколинеарность
Как оценить выживаемость пациентов при наличии конкурирующих событий и рисков
🤔 Конкурирующее событие - смерть пациента по другой причине, чем от изучаемого заболевания. Например, смерть больного раком от ишемической болезни сердца или несчастного случая. Вероятность такого события называется конкурирующим риском. Метод Каплана-Мейера не предназначен для учета конкурирующих событий и рисков, поэтому он, как правило, дает неточные оценки при анализе вероятности для конкретных событий.
Что можно сделать:
❌ Убрать таких пациентов из анализа. Это искажает результат и снижает размер выборки.
❌ Цензурировать таких пациентов датой смерти от других причин. Такой причинно-специфический подход возможен, но недостаточно информативен. Например, мы не сможем определить вероятность того, умер бы пациент, умерший от сердечного приступа, от изучаемого нами рака.
✅ Анализ конкурирующих рисков посредством кумулятивной функции инцидентности - оценка предельной вероятности для каждого конкурирующего события. Предельная вероятность определяется как вероятность того, что у пациентов действительно случилось интересующее нас событие, независимо от того, были ли они подвергнуты цензуре или потерпели неудачу из-за других конкурирующих событий. Аналогичные методу Каплан-Мейра кривые строятся снизу вверх из точки 0. Сравнение таких кривых проводится непараметрическим методом Грея (аналог log-rank теста) или полупараметрическим методом Файн-Грея (аналог Hazard Ratio).
Все эти методы доступны в основных статистических пакетах, включая R, STATA и SAS.
🤔 Конкурирующее событие - смерть пациента по другой причине, чем от изучаемого заболевания. Например, смерть больного раком от ишемической болезни сердца или несчастного случая. Вероятность такого события называется конкурирующим риском. Метод Каплана-Мейера не предназначен для учета конкурирующих событий и рисков, поэтому он, как правило, дает неточные оценки при анализе вероятности для конкретных событий.
Что можно сделать:
❌ Убрать таких пациентов из анализа. Это искажает результат и снижает размер выборки.
❌ Цензурировать таких пациентов датой смерти от других причин. Такой причинно-специфический подход возможен, но недостаточно информативен. Например, мы не сможем определить вероятность того, умер бы пациент, умерший от сердечного приступа, от изучаемого нами рака.
✅ Анализ конкурирующих рисков посредством кумулятивной функции инцидентности - оценка предельной вероятности для каждого конкурирующего события. Предельная вероятность определяется как вероятность того, что у пациентов действительно случилось интересующее нас событие, независимо от того, были ли они подвергнуты цензуре или потерпели неудачу из-за других конкурирующих событий. Аналогичные методу Каплан-Мейра кривые строятся снизу вверх из точки 0. Сравнение таких кривых проводится непараметрическим методом Грея (аналог log-rank теста) или полупараметрическим методом Файн-Грея (аналог Hazard Ratio).
Все эти методы доступны в основных статистических пакетах, включая R, STATA и SAS.