Про p-хакинг
p-хакинг - желание всеми правдами и неправдами получить значение уровня p-значимости <0.05. p-хакинг - побочный эффект самого существования уровня p-значимости, стереотипная и неверная интерпретация которого сводится к различиям между данными, которые обязательно должны быть. Но на самом деле, занимаясь p-хакингом, "исследователь" не доказывает или опровергает научную гипотезу, а лишь пытается получить ложноположительный результат, что является катастрофой для любого научного вывода.
Признаки p-хакинга:
1. Прекращение сбора данных при получении p<0.05
2. Проведение множества измерений, но публикация только тех результатов, у которых p<0.05
3. Использование ковариат, у которых p<0.05
4. Исключение данных, которые мешают достичь p<0.05
5. Трансформация данных с целью получить p<0.05
p-хакинг - желание всеми правдами и неправдами получить значение уровня p-значимости <0.05. p-хакинг - побочный эффект самого существования уровня p-значимости, стереотипная и неверная интерпретация которого сводится к различиям между данными, которые обязательно должны быть. Но на самом деле, занимаясь p-хакингом, "исследователь" не доказывает или опровергает научную гипотезу, а лишь пытается получить ложноположительный результат, что является катастрофой для любого научного вывода.
Признаки p-хакинга:
1. Прекращение сбора данных при получении p<0.05
2. Проведение множества измерений, но публикация только тех результатов, у которых p<0.05
3. Использование ковариат, у которых p<0.05
4. Исключение данных, которые мешают достичь p<0.05
5. Трансформация данных с целью получить p<0.05
👍1💯1
Цена дихотомии непрерывных (количественных) переменных
Категоризация (дихотомия) непрерывных переменных, чаще на 2 группы, - популярная тема, если не сказать повальная мода при работе с данными, в частности с медицинскими. Аргументом в пользу такого подхода является то, что это значительно упрощает статистический анализ и интерпретацию и представление результатов. Например, бинарное разделение количественной переменной позволяет сравнить группы с помощью t-теста или Хи2.
На самом деле вы получаете кучу проблем 💩:
1. Большая часть информации теряется, поэтому статистическая мощность для обнаружения связи между переменной и исходом пациента снижается. Дихотомия переменной по медиане снижает мощность на ту же величину, что и отбрасывание трети данных, что нецелесообразно, когда данных и так обычно мало.
2. Может, наоброт, повысится риск ложноположительного результата (ошибка I рода)
3. Недооценка степени различий между группами. Пациенты, близкие к точке отсечения, но находящиеся по разные стороны от нее, характеризуются как очень разные, а на самом деле они очень похожи!
4. Дихотомия нарушает любую линейную взаимосвязь между результатами, а при ее наличии гораздо эффективнее воспользоваться той же линейной регрессией.
Виды порогов (точек отсечения), которые используются при дихотомии:
1. Общепризнанные пороги, например, ИМТ 25 кг/м2 (на самом деле никаких математических оснований для данного порога никогда не существовало)
2. Точка отсечения из прошлого похожего исследования (скорее всего она неверна, поэтому ошибетесь и вы)
3. Выборочная медиана (только вот в разных выборках медианы будут разные)
4. Использование так называемой «оптимальной» точки отсечения (обычно дающей минимальное значение p-значимости), расчитанной разными способами (например, ROC-анализом). Очень высокий риск ложноположительного результата! Никогда не используйте данную стратегию!
Вместо категоризации непрерывных переменных сохраняйте их непрерывными - это лучшая стратегия!
Категоризация (дихотомия) непрерывных переменных, чаще на 2 группы, - популярная тема, если не сказать повальная мода при работе с данными, в частности с медицинскими. Аргументом в пользу такого подхода является то, что это значительно упрощает статистический анализ и интерпретацию и представление результатов. Например, бинарное разделение количественной переменной позволяет сравнить группы с помощью t-теста или Хи2.
На самом деле вы получаете кучу проблем 💩:
1. Большая часть информации теряется, поэтому статистическая мощность для обнаружения связи между переменной и исходом пациента снижается. Дихотомия переменной по медиане снижает мощность на ту же величину, что и отбрасывание трети данных, что нецелесообразно, когда данных и так обычно мало.
2. Может, наоброт, повысится риск ложноположительного результата (ошибка I рода)
3. Недооценка степени различий между группами. Пациенты, близкие к точке отсечения, но находящиеся по разные стороны от нее, характеризуются как очень разные, а на самом деле они очень похожи!
4. Дихотомия нарушает любую линейную взаимосвязь между результатами, а при ее наличии гораздо эффективнее воспользоваться той же линейной регрессией.
Виды порогов (точек отсечения), которые используются при дихотомии:
1. Общепризнанные пороги, например, ИМТ 25 кг/м2 (на самом деле никаких математических оснований для данного порога никогда не существовало)
2. Точка отсечения из прошлого похожего исследования (скорее всего она неверна, поэтому ошибетесь и вы)
3. Выборочная медиана (только вот в разных выборках медианы будут разные)
4. Использование так называемой «оптимальной» точки отсечения (обычно дающей минимальное значение p-значимости), расчитанной разными способами (например, ROC-анализом). Очень высокий риск ложноположительного результата! Никогда не используйте данную стратегию!
Вместо категоризации непрерывных переменных сохраняйте их непрерывными - это лучшая стратегия!
👍6
✍ Для экстраполяции результатов выборочной совокупности на генеральную (популяцию) мы должны оперировать интервалами неопределенности, в которые превращаются все частоты, медианы, средние, кривые выживаемости и т.д. Эти интервалы тем больше, чем меньше выборочная совокупность. В статистике, использующей частотный подход (классическая статистика) и байесовский подход (байесовская статистика) к теории вероятности, применяются на первый взгляд схожие, но разные интервалы неопределенности.
✅ Частотный подоход. Вероятность интерпретируется как утверждение о том, как часто должно происходить событие при многократных попытках.
95% Confidence interval (доверительный интервал) - если мы повторим эксперимент много раз, 95% значений результата будут находиться в данном интервале.
p-уровень значимости говорит нам о вероятности повторения таких же или более экстремальных результатов эксперимента при гипотетической верности нулевой гипотезы.
Все это не очень интуитивно понятно, тем не менее этим пользуется большинство исследователей.
✅ Байесовский подход интерпретирует вероятность как результат логических рассуждений о природе вещей и явлений. Такой подход становится весомее и более значимым при описании сложных моделей и явлений, нашей жизни в конце концов. Он позволяет не просто делать отдельные прогнозы, но и давать степень уверенности в прогнозах, находящихся в широком наборе вариантов. Байесовская статистика сообщает апостериорную вероятность события или явления в прямом понимании слова "вероятность". Это интуитивно более понятные вещи, тем не менее они менее распространены среди исследователей.
95% Credible interval (интервал достоверности, уверенности) - 95% вероятность, что результат в генеральной совокупности (популяции) будет находиться в данном интервале.
✅ Частотный подоход. Вероятность интерпретируется как утверждение о том, как часто должно происходить событие при многократных попытках.
95% Confidence interval (доверительный интервал) - если мы повторим эксперимент много раз, 95% значений результата будут находиться в данном интервале.
p-уровень значимости говорит нам о вероятности повторения таких же или более экстремальных результатов эксперимента при гипотетической верности нулевой гипотезы.
Все это не очень интуитивно понятно, тем не менее этим пользуется большинство исследователей.
✅ Байесовский подход интерпретирует вероятность как результат логических рассуждений о природе вещей и явлений. Такой подход становится весомее и более значимым при описании сложных моделей и явлений, нашей жизни в конце концов. Он позволяет не просто делать отдельные прогнозы, но и давать степень уверенности в прогнозах, находящихся в широком наборе вариантов. Байесовская статистика сообщает апостериорную вероятность события или явления в прямом понимании слова "вероятность". Это интуитивно более понятные вещи, тем не менее они менее распространены среди исследователей.
95% Credible interval (интервал достоверности, уверенности) - 95% вероятность, что результат в генеральной совокупности (популяции) будет находиться в данном интервале.
👍2
Про Data Science
Data Science или наука о данных - дисциплина или область знаний, целью которой является извлечение пользы из данных. Включает в себя следующие разделы:
✅ Описательная статистика или аналитика (Descriptive Analytics и Data Mining) - сбор данных и разведочный анализ, предназначенный для обнаружения в данных закономерностей, формулировки гипотез в отношении процессов, вызывающих эти закономерности. На этом этапе не делаются выводы, а происходит поиск паттернов (закономерностей) в имеющихся данных, описывается и сравнивается их распределение.
✅ Статистический вывод (Statistical Inference) - принятие одного или нескольких решений с учетом неопределенности в отношении того, как и насколько хорошо проанализированные нами данные описывают соответствующую генеральную совокупность. На этом этапе делаются выводы, описываются причинно-следственные связи.
✅ Машинное обучение / искусственный интеллект (Machine Learning / Artificial Intelligence) - создание моделей и алгоритмов, которые можно использовать для принятия решений.
Data Science или наука о данных - дисциплина или область знаний, целью которой является извлечение пользы из данных. Включает в себя следующие разделы:
✅ Описательная статистика или аналитика (Descriptive Analytics и Data Mining) - сбор данных и разведочный анализ, предназначенный для обнаружения в данных закономерностей, формулировки гипотез в отношении процессов, вызывающих эти закономерности. На этом этапе не делаются выводы, а происходит поиск паттернов (закономерностей) в имеющихся данных, описывается и сравнивается их распределение.
✅ Статистический вывод (Statistical Inference) - принятие одного или нескольких решений с учетом неопределенности в отношении того, как и насколько хорошо проанализированные нами данные описывают соответствующую генеральную совокупность. На этом этапе делаются выводы, описываются причинно-следственные связи.
✅ Машинное обучение / искусственный интеллект (Machine Learning / Artificial Intelligence) - создание моделей и алгоритмов, которые можно использовать для принятия решений.
👍1
Про статистические парадоксы
✅ Скрытая переменная. Прямая корреляция между переменными, которые по логике рассуждения должны коррелировать обратно или в целом не иметь причино-следственной связи.
Пример: вес пациента коррелирует с риском осложнений от проводимой химиотерапии. На самом деле риск связан с дозами лекарственных препаратов, которые увеличиваются с весом пациента.
Причина: наличие скрытой переменной, которую не учли.
✅ Парадокс Берксона ("смещение коллайдера"). Обратная взаимосвязь между переменными, противоречащая причино-следственной логике.
Пример: курение сигарет может защитить от COVID-19 (доля курильщиков среди тех, кто госпитализирован с COVID-19, была ниже, чем в целом в популяции). Например, в Китае, около 8% людей, находящихся в больнице с COVID-19, были курильщиками, а всего курят 26% населения.
Причина: анализ проводился только среди госпитализированных больных. Госпитализация - "переменная-коллайдер", с которой независимо друг от друга связаны как течение COVID-19, так и курение через другие заболевания легких и сердца. Таким образом, оба эти фактора повлияли на попадание пациента в выборку для анализа, которая не является случайной выборкой населения в целом. Тесты на COVID-19 у этих госпитализированных больных, вероятно, покажут более низкий уровень заражения среди курильщиков, чем среди некурящих, потому что первые также госпитализируются из-за заболеваний, связанных с курением, а не только с COVID-19. Это может объяснить отчеты нескольких исследований, в которых утверждается, что курение может защитить от инфекции COVID-19.
✅ Парадокс Симпсона. Тенденция, наблюдаемая в разных подгруппах, меняется на противоположную, когда эти группы объединяются.
Пример: положительный коэффициент регрессии переменной в однофактороном анализе меняется на отрицательный во многофакторном.
Причины: дисбаланс классов, маленький размер выборки, мультиколинеарность
✅ Скрытая переменная. Прямая корреляция между переменными, которые по логике рассуждения должны коррелировать обратно или в целом не иметь причино-следственной связи.
Пример: вес пациента коррелирует с риском осложнений от проводимой химиотерапии. На самом деле риск связан с дозами лекарственных препаратов, которые увеличиваются с весом пациента.
Причина: наличие скрытой переменной, которую не учли.
✅ Парадокс Берксона ("смещение коллайдера"). Обратная взаимосвязь между переменными, противоречащая причино-следственной логике.
Пример: курение сигарет может защитить от COVID-19 (доля курильщиков среди тех, кто госпитализирован с COVID-19, была ниже, чем в целом в популяции). Например, в Китае, около 8% людей, находящихся в больнице с COVID-19, были курильщиками, а всего курят 26% населения.
Причина: анализ проводился только среди госпитализированных больных. Госпитализация - "переменная-коллайдер", с которой независимо друг от друга связаны как течение COVID-19, так и курение через другие заболевания легких и сердца. Таким образом, оба эти фактора повлияли на попадание пациента в выборку для анализа, которая не является случайной выборкой населения в целом. Тесты на COVID-19 у этих госпитализированных больных, вероятно, покажут более низкий уровень заражения среди курильщиков, чем среди некурящих, потому что первые также госпитализируются из-за заболеваний, связанных с курением, а не только с COVID-19. Это может объяснить отчеты нескольких исследований, в которых утверждается, что курение может защитить от инфекции COVID-19.
✅ Парадокс Симпсона. Тенденция, наблюдаемая в разных подгруппах, меняется на противоположную, когда эти группы объединяются.
Пример: положительный коэффициент регрессии переменной в однофактороном анализе меняется на отрицательный во многофакторном.
Причины: дисбаланс классов, маленький размер выборки, мультиколинеарность
Как оценить выживаемость пациентов при наличии конкурирующих событий и рисков
🤔 Конкурирующее событие - смерть пациента по другой причине, чем от изучаемого заболевания. Например, смерть больного раком от ишемической болезни сердца или несчастного случая. Вероятность такого события называется конкурирующим риском. Метод Каплана-Мейера не предназначен для учета конкурирующих событий и рисков, поэтому он, как правило, дает неточные оценки при анализе вероятности для конкретных событий.
Что можно сделать:
❌ Убрать таких пациентов из анализа. Это искажает результат и снижает размер выборки.
❌ Цензурировать таких пациентов датой смерти от других причин. Такой причинно-специфический подход возможен, но недостаточно информативен. Например, мы не сможем определить вероятность того, умер бы пациент, умерший от сердечного приступа, от изучаемого нами рака.
✅ Анализ конкурирующих рисков посредством кумулятивной функции инцидентности - оценка предельной вероятности для каждого конкурирующего события. Предельная вероятность определяется как вероятность того, что у пациентов действительно случилось интересующее нас событие, независимо от того, были ли они подвергнуты цензуре или потерпели неудачу из-за других конкурирующих событий. Аналогичные методу Каплан-Мейра кривые строятся снизу вверх из точки 0. Сравнение таких кривых проводится непараметрическим методом Грея (аналог log-rank теста) или полупараметрическим методом Файн-Грея (аналог Hazard Ratio).
Все эти методы доступны в основных статистических пакетах, включая R, STATA и SAS.
🤔 Конкурирующее событие - смерть пациента по другой причине, чем от изучаемого заболевания. Например, смерть больного раком от ишемической болезни сердца или несчастного случая. Вероятность такого события называется конкурирующим риском. Метод Каплана-Мейера не предназначен для учета конкурирующих событий и рисков, поэтому он, как правило, дает неточные оценки при анализе вероятности для конкретных событий.
Что можно сделать:
❌ Убрать таких пациентов из анализа. Это искажает результат и снижает размер выборки.
❌ Цензурировать таких пациентов датой смерти от других причин. Такой причинно-специфический подход возможен, но недостаточно информативен. Например, мы не сможем определить вероятность того, умер бы пациент, умерший от сердечного приступа, от изучаемого нами рака.
✅ Анализ конкурирующих рисков посредством кумулятивной функции инцидентности - оценка предельной вероятности для каждого конкурирующего события. Предельная вероятность определяется как вероятность того, что у пациентов действительно случилось интересующее нас событие, независимо от того, были ли они подвергнуты цензуре или потерпели неудачу из-за других конкурирующих событий. Аналогичные методу Каплан-Мейра кривые строятся снизу вверх из точки 0. Сравнение таких кривых проводится непараметрическим методом Грея (аналог log-rank теста) или полупараметрическим методом Файн-Грея (аналог Hazard Ratio).
Все эти методы доступны в основных статистических пакетах, включая R, STATA и SAS.
Про статистическую и клиническую значимость в медицинских исследованиях
Часто исследователи сосредоточены исключительно на значениях p и «статистической значимости» результата, чтобы определить, является ли сделанное открытие «важным», что может быть ошибкой.
Необходимо учитывать сам результат (например, различия в средних, отношение шансов или рисков) и соответствующие 95% доверительные интервалы в контексте потенциальной клинической значимости данного результата. Статистическая значимость часто не приравнивается к клинической значимости. Например, в крупном исследовании изучалась эффективность терапии, отношение рисков = 0.97, а 95%ДИ = 0.95 до 0.99. В этом случае эффект от лечения потенциально невелик (снижение рисков всего на 3%), даже если значение p меньше 0.05. И наоборот, отсутствие статистических доказательств не означает отсутствия клинической эффективности. Например, в небольшом исследовании эффективности терапии отношение рисков = 0.70 и 95%ДИ от 0.40 до 1.10, p>0.05. Величина эффекта от лечения потенциально велика, даже если значение p>0.05. Нужно увеличить размер выборки и повторить эксперимент.
Интерпретируйте результаты и делайте выводы в контексте клинической, а не статистической значимости!
Часто исследователи сосредоточены исключительно на значениях p и «статистической значимости» результата, чтобы определить, является ли сделанное открытие «важным», что может быть ошибкой.
Необходимо учитывать сам результат (например, различия в средних, отношение шансов или рисков) и соответствующие 95% доверительные интервалы в контексте потенциальной клинической значимости данного результата. Статистическая значимость часто не приравнивается к клинической значимости. Например, в крупном исследовании изучалась эффективность терапии, отношение рисков = 0.97, а 95%ДИ = 0.95 до 0.99. В этом случае эффект от лечения потенциально невелик (снижение рисков всего на 3%), даже если значение p меньше 0.05. И наоборот, отсутствие статистических доказательств не означает отсутствия клинической эффективности. Например, в небольшом исследовании эффективности терапии отношение рисков = 0.70 и 95%ДИ от 0.40 до 1.10, p>0.05. Величина эффекта от лечения потенциально велика, даже если значение p>0.05. Нужно увеличить размер выборки и повторить эксперимент.
Интерпретируйте результаты и делайте выводы в контексте клинической, а не статистической значимости!
👍1
🔥Маркетплейс данных (будут добавляться) - приобретайте качественные и подготовленные данные для ваших научных исследований и экономьте 80% своего времени! dataclone.ru
Про пошаговую регрессию backward и forward
Селекция предикторов (variable selection или future selection) во время построения модели регрессии может выполняться прямым и обратным пошаговым методом. Прямой (forward) метод - пошаговое добавление переменных к нулевой модели (без переменных, only intercept model). Обратный (backward) метод - пошаговое удаление предикторов из начальной модели, содержащей все переменные.
Прямой пошаговый отбор предпочтительнее, когда количество рассматриваемых переменных очень велико! Фактически, он будет рассматривать только модели с числом переменных меньше размера выборки (для линейной регрессии) и количества событий (для логистической регрессии).
Независимо от метода добавления/удаления переменных на каждом шаге происходит проверка либо значимости каждого из потенциальных предикторов, либо эффективности всей модели в целом - правило остановки. Как только правило выполняется создание модели останавливается. При прямом методе создание модели останавливается, когда включение в модель любой из оставшихся для рассмотрения переменных приводит к выполнению правила остановки. При обратном методе - создание модели останавливается, когда исключение из модели любой из переменных приводит к выполнению правила остановки.
Варианты правил остановки:
1. По фиксированному p-уровню значимости каждого из предикторов. Например, 0.05, 0.15, 0.20. Чем меньше размер выборки, тем больше должен быть уровень p. В модель включаются только переменные с p < порога.
2. По методу Вальда для каждого из предикторов. Метод Вальда можно использовать для проверки нулевой гипотезы о том, что истинный коэффициент регрессии для предиктора равен нулю, что указывает на то, что предиктор не является статистически значимым. Если p-значение для теста Вальда меньше заданного порога (например, 0.05), то нулевая гипотеза отклоняется, и предиктор считается статистически значимым.
3. По методу AIC (информационный критерий Акаике) для всей модели. Модель с наименьшим значением AIC считает наилучшей. Метод также чувствителен к размеру выборки. При малых размерах выборки отдается предпочтение моделям с большим числом переменных, что может привести к переобучению.
4. По методу BIC (Байесовский информационный критерий) для всей модели. Модель с наименьшим значением BIC считает наилучшей. BIC чувствителен к размеру выборки. Для небольших размеров выборки BIC может быть чрезмерно консервативным и неточно отражает соответствие модели данным. Это приведет к выбору менее сложных моделей, которые будут не такими точными, как более сложные модели. BIC основан на компромиссе между соответствием модели и ее сложностью, со штрафом для более сложных моделей. Это приведет к выбору более простых моделей, которые могут быть не такими точными, как более сложные модели.
5. По тесту отношения правдоподобия (Likelihood-ratio test). Модель с большим значением правдоподобия (likelihood) считается наилучшей.
Дополнительные критерии оценки качества модели: R2, C-index (AUC-ROC), RSME и SME (ошибки прогноза).
Общие минусы пошаговой регрессии:
1. Она не рассматривает все возможные комбинации потенциальных предикторов.
2. Коэффициенты регрессии, доверительные интервалы, p-значения и R2 имеют смещенные значения (не совсем соотвествующие действительным значениям: коэффициенты регрессии и R2 - больше, чем на самом деле; доверительные интервалы и p-значения - меньше, чем на самом деле).
3. Выдает нестабильный набор переменных, особенно когда у вас небольшой размер выборки. Легко проверить через процедуру бутстрепа.
4. Пошаговая регрессия не всегда выбирает наилучшую возможную комбинацию переменных. Обойти это невозможно!
Селекция предикторов (variable selection или future selection) во время построения модели регрессии может выполняться прямым и обратным пошаговым методом. Прямой (forward) метод - пошаговое добавление переменных к нулевой модели (без переменных, only intercept model). Обратный (backward) метод - пошаговое удаление предикторов из начальной модели, содержащей все переменные.
Прямой пошаговый отбор предпочтительнее, когда количество рассматриваемых переменных очень велико! Фактически, он будет рассматривать только модели с числом переменных меньше размера выборки (для линейной регрессии) и количества событий (для логистической регрессии).
Независимо от метода добавления/удаления переменных на каждом шаге происходит проверка либо значимости каждого из потенциальных предикторов, либо эффективности всей модели в целом - правило остановки. Как только правило выполняется создание модели останавливается. При прямом методе создание модели останавливается, когда включение в модель любой из оставшихся для рассмотрения переменных приводит к выполнению правила остановки. При обратном методе - создание модели останавливается, когда исключение из модели любой из переменных приводит к выполнению правила остановки.
Варианты правил остановки:
1. По фиксированному p-уровню значимости каждого из предикторов. Например, 0.05, 0.15, 0.20. Чем меньше размер выборки, тем больше должен быть уровень p. В модель включаются только переменные с p < порога.
2. По методу Вальда для каждого из предикторов. Метод Вальда можно использовать для проверки нулевой гипотезы о том, что истинный коэффициент регрессии для предиктора равен нулю, что указывает на то, что предиктор не является статистически значимым. Если p-значение для теста Вальда меньше заданного порога (например, 0.05), то нулевая гипотеза отклоняется, и предиктор считается статистически значимым.
3. По методу AIC (информационный критерий Акаике) для всей модели. Модель с наименьшим значением AIC считает наилучшей. Метод также чувствителен к размеру выборки. При малых размерах выборки отдается предпочтение моделям с большим числом переменных, что может привести к переобучению.
4. По методу BIC (Байесовский информационный критерий) для всей модели. Модель с наименьшим значением BIC считает наилучшей. BIC чувствителен к размеру выборки. Для небольших размеров выборки BIC может быть чрезмерно консервативным и неточно отражает соответствие модели данным. Это приведет к выбору менее сложных моделей, которые будут не такими точными, как более сложные модели. BIC основан на компромиссе между соответствием модели и ее сложностью, со штрафом для более сложных моделей. Это приведет к выбору более простых моделей, которые могут быть не такими точными, как более сложные модели.
5. По тесту отношения правдоподобия (Likelihood-ratio test). Модель с большим значением правдоподобия (likelihood) считается наилучшей.
Дополнительные критерии оценки качества модели: R2, C-index (AUC-ROC), RSME и SME (ошибки прогноза).
Общие минусы пошаговой регрессии:
1. Она не рассматривает все возможные комбинации потенциальных предикторов.
2. Коэффициенты регрессии, доверительные интервалы, p-значения и R2 имеют смещенные значения (не совсем соотвествующие действительным значениям: коэффициенты регрессии и R2 - больше, чем на самом деле; доверительные интервалы и p-значения - меньше, чем на самом деле).
3. Выдает нестабильный набор переменных, особенно когда у вас небольшой размер выборки. Легко проверить через процедуру бутстрепа.
4. Пошаговая регрессия не всегда выбирает наилучшую возможную комбинацию переменных. Обойти это невозможно!
👍3
статИИстик
Сравниваем уровень гемоглобина у онкологических пациентов с разной стадией заболевания c использованием one-way ANOVA теста.
🔥 Новый датасет с научными данными на dataclone.ru - 567 пациентов с множественной миеломой (20 параметров, включая данные о выживаемости). Именно на нем сделаны примеры по ANOVA и t-тесту в предыдущих постах.
⚠ Научные данные - это либо реальные данные с открытым доступом, которые были деперсонализированы, либо синтетические данные, сгенерированные с помощью алгоритмов, чтобы иметь такое же распределение, как у реальных данных. Все данные максимально подготовлены для анализа (произведено вменение пустых значений, где это возможно, выполнена чистка и структурирование). Вы можете использовать эти данные в комплексе со своими, чтобы увеличить размер выборки и мощность статистических тестов, либо самостоятельно в рамках учебного процесса и проверки собственных научных гипотез.
⚠ Научные данные - это либо реальные данные с открытым доступом, которые были деперсонализированы, либо синтетические данные, сгенерированные с помощью алгоритмов, чтобы иметь такое же распределение, как у реальных данных. Все данные максимально подготовлены для анализа (произведено вменение пустых значений, где это возможно, выполнена чистка и структурирование). Вы можете использовать эти данные в комплексе со своими, чтобы увеличить размер выборки и мощность статистических тестов, либо самостоятельно в рамках учебного процесса и проверки собственных научных гипотез.
Про проблему субгрупповых анализов
Многие наверняка сталкивались с так называемым субгрупповым анализом, когда эффективность лечения проверяется в отдельно взятых группах пациентов, выделенных по тому или иному признаку. При этом еще рисуют так называемые форест-плот диаграммы. Например, а давайте посмотрим как наше лечение работает только в группе пациентов старше 60 лет, а давайте - в группе пациентов в неблагоприятным генетическим риском и т.д. 🙃
Первая проблема такого подхода заключаются в том, что часто это однофакторный анализ. Отношения шансов в таком анализе смещены (не скорректированы), так как они получены в несуществующих в реальности условиях. Во-вторых, распространенной ошибкой является вывод о том, что результаты одной подгруппы отличаются от результатов другой подгруппы, без фактической количественной оценки различий. Альтман и Блэнд (профессора статистики) как-то показали такой пример. Были представлены результаты лечения для двух подгрупп, в первой из которых терапия оказалось статистически значимо эффективной (отношение рисков 0.67, 95% ДИ 0.46-0.98, p=0.03), тогда как во второй - нет (ОР = 0.88, 0.71-1.08, p=0.2). Наивная и неверная интерпретация таких результатов строится на выводе, что лечение эффективно в первой подгруппе, но не во второй. Однако фактическое сравнение результатов между двумя этими подгруппами показало широкий доверительный интервал (ОР 0.76, 95%ДИ 0.49-1.17, p=0.2), что говорит об отсуствии убедительных доказательств, подтверждающих различный эффект лечения в разных подгруппах.
✅ Если вы хотите оценить эффект лечения в разных подгруппах, то общей рекомендацией будет использовать многофакторный анализ, где подгруппы будут выступать в качестве независимых ковариат. Но тут важно не наступить на грабли дихотомии непрерывных ковариат и учитывать допущения к регрессионному или другому анализу, который вы будете использовать.
Многие наверняка сталкивались с так называемым субгрупповым анализом, когда эффективность лечения проверяется в отдельно взятых группах пациентов, выделенных по тому или иному признаку. При этом еще рисуют так называемые форест-плот диаграммы. Например, а давайте посмотрим как наше лечение работает только в группе пациентов старше 60 лет, а давайте - в группе пациентов в неблагоприятным генетическим риском и т.д. 🙃
Первая проблема такого подхода заключаются в том, что часто это однофакторный анализ. Отношения шансов в таком анализе смещены (не скорректированы), так как они получены в несуществующих в реальности условиях. Во-вторых, распространенной ошибкой является вывод о том, что результаты одной подгруппы отличаются от результатов другой подгруппы, без фактической количественной оценки различий. Альтман и Блэнд (профессора статистики) как-то показали такой пример. Были представлены результаты лечения для двух подгрупп, в первой из которых терапия оказалось статистически значимо эффективной (отношение рисков 0.67, 95% ДИ 0.46-0.98, p=0.03), тогда как во второй - нет (ОР = 0.88, 0.71-1.08, p=0.2). Наивная и неверная интерпретация таких результатов строится на выводе, что лечение эффективно в первой подгруппе, но не во второй. Однако фактическое сравнение результатов между двумя этими подгруппами показало широкий доверительный интервал (ОР 0.76, 95%ДИ 0.49-1.17, p=0.2), что говорит об отсуствии убедительных доказательств, подтверждающих различный эффект лечения в разных подгруппах.
✅ Если вы хотите оценить эффект лечения в разных подгруппах, то общей рекомендацией будет использовать многофакторный анализ, где подгруппы будут выступать в качестве независимых ковариат. Но тут важно не наступить на грабли дихотомии непрерывных ковариат и учитывать допущения к регрессионному или другому анализу, который вы будете использовать.
Как вы интерпретируете p-уровень значимости = 0.06?
Anonymous Poll
0%
Вероятность, что ваш результат ошибочный = 6%
10%
Вероятность, что ваш результат получился случайно = 6%
33%
Вероятность, что нулевая гипотеза верна = 6%
52%
Если нулевая гипотеза верна, то вероятность получить такой же или более значимый результат = 6%
10%
Ни один из вариантов
5%
Не знаю
Термины в статистике важны, термины в статистике нужны. #глоссарий
✍ Adjusting (корректировка или контроль переменной): скорректированная оценка влияния одной переменной на изучаемый исход с учетом влияния другой (вмешивающейся) переменной. Например, при изучении эффекта лечения на величину снижения артериального давления (АД), целесообразно также учитывать влияние возраста, прежде чем оценивать эффект самого лекарства. В данном случае возраст корректирует влияние терапии на исход. Это можно сделать в регрессионной модели или грубо разделить пациентов на возрастные группы (только не на 2, а на 10 частей по децилям) и оценить среднее снижение АД в каждой из них. Корректировка приводит к скорректированным отношениям шансов, скорректированным отношениям рисков и т.д.
✍ Adjusting (корректировка или контроль переменной): скорректированная оценка влияния одной переменной на изучаемый исход с учетом влияния другой (вмешивающейся) переменной. Например, при изучении эффекта лечения на величину снижения артериального давления (АД), целесообразно также учитывать влияние возраста, прежде чем оценивать эффект самого лекарства. В данном случае возраст корректирует влияние терапии на исход. Это можно сделать в регрессионной модели или грубо разделить пациентов на возрастные группы (только не на 2, а на 10 частей по децилям) и оценить среднее снижение АД в каждой из них. Корректировка приводит к скорректированным отношениям шансов, скорректированным отношениям рисков и т.д.
👍3
☃ Коллеги! Поздравляем всех с наступающим Новым Годом!
Желаем всем правильных доказательств научных гипотез, низкого риска систематических ошибок и больших мощностей ваших статистических данных.
Кстати, увеличить мощность ваших данных вам поможет dataclone.ru
Желаем всем правильных доказательств научных гипотез, низкого риска систематических ошибок и больших мощностей ваших статистических данных.
Кстати, увеличить мощность ваших данных вам поможет dataclone.ru
👍3
И снова про p-уровень значимости
В вопросе выше правильный ответ "Если нулевая гипотеза верна, то вероятность получить такой же или более значимый результат = 6%". Другими словами, если вы совершили ошибку (ошибка 1 рода - найти различия там, где их нет), то вероятность ее повторить и будет p-уровнем значимости. Или еще короче, p-уровень значимости = вероятности дважды совершить ошибку 1 рода при повторении эксперимента. Из этого вытекают две проблемы:
1. Насколько эта вероятность (5%) большая или маленькая?! По сути вся частотная статистика, а значит и все выводы клинических исследований базируются на данном уровне вероятности. Лечение для больного выбирается с вероятностью ошибки верного решения 5% и она универсальна для всех клинических случаев, заболеваний и методов терапии. Но в реальной жизни, если бы ваш персональный выбор лечения и риск ошибки был равен 4.9% (<0.05), насколько он был бы приемлемым? Возможно кто-то захотел бы его уменьшить до 1% (0.01).
2. Порог 5% делит все многообразие решений на 2 категории: ДА (статистически значимо) и НЕТ (статистически не значимо). Возьмем два примера: в одном p=0.049, в другом p=0.051. В первом случае мы примем решение, во втором - нет. Но на самом деле вероятности отличаются лишь на 0.002 (0.2%). В реальной жизни мы считаем такие различия несущественными и не меняем своих решений.
Реальный пример. В рандомизированном клиническом исследовании терапия 'А' показала преимущество перед терапией 'В' по беспрогрессивной выживаемости, HR = 0.73, p=0.02. Это достаточное основание, чтобы одобрить применение терапии 'А' вместо терапии 'В' для определенной категории пациентов. При этом цена терапи 'А' = $3500 за одну инъекцию, а терапии 'В' = $40. Если посмотреть на абсолютные результаты: отличия в беспрогрессивной выживаемости через 24 мес. терапии составляют лишь 6%. Другими словами, только 6 пациентов из 100 получают преимущество по данному критерию. Цена же лечения для одного пациента выше в 87.5 раз. Общая выживаемость пациентов в обеих группах не отличалась. В данном случае лечение 'В' никак нельзя считать плохим. Лечение 'А' чуть лучше, но ценник явно нужно снизить.
В вопросе выше правильный ответ "Если нулевая гипотеза верна, то вероятность получить такой же или более значимый результат = 6%". Другими словами, если вы совершили ошибку (ошибка 1 рода - найти различия там, где их нет), то вероятность ее повторить и будет p-уровнем значимости. Или еще короче, p-уровень значимости = вероятности дважды совершить ошибку 1 рода при повторении эксперимента. Из этого вытекают две проблемы:
1. Насколько эта вероятность (5%) большая или маленькая?! По сути вся частотная статистика, а значит и все выводы клинических исследований базируются на данном уровне вероятности. Лечение для больного выбирается с вероятностью ошибки верного решения 5% и она универсальна для всех клинических случаев, заболеваний и методов терапии. Но в реальной жизни, если бы ваш персональный выбор лечения и риск ошибки был равен 4.9% (<0.05), насколько он был бы приемлемым? Возможно кто-то захотел бы его уменьшить до 1% (0.01).
2. Порог 5% делит все многообразие решений на 2 категории: ДА (статистически значимо) и НЕТ (статистически не значимо). Возьмем два примера: в одном p=0.049, в другом p=0.051. В первом случае мы примем решение, во втором - нет. Но на самом деле вероятности отличаются лишь на 0.002 (0.2%). В реальной жизни мы считаем такие различия несущественными и не меняем своих решений.
Реальный пример. В рандомизированном клиническом исследовании терапия 'А' показала преимущество перед терапией 'В' по беспрогрессивной выживаемости, HR = 0.73, p=0.02. Это достаточное основание, чтобы одобрить применение терапии 'А' вместо терапии 'В' для определенной категории пациентов. При этом цена терапи 'А' = $3500 за одну инъекцию, а терапии 'В' = $40. Если посмотреть на абсолютные результаты: отличия в беспрогрессивной выживаемости через 24 мес. терапии составляют лишь 6%. Другими словами, только 6 пациентов из 100 получают преимущество по данному критерию. Цена же лечения для одного пациента выше в 87.5 раз. Общая выживаемость пациентов в обеих группах не отличалась. В данном случае лечение 'В' никак нельзя считать плохим. Лечение 'А' чуть лучше, но ценник явно нужно снизить.
👍4
#глоссарий
✍ Allocation ratio (коэффициент распределения) - соотношение размеров выборок двух параллельных групп с двумя видами
лечения в исследовании (например, в рандомизированном). Чем коэффициент больше 1 (размеры групп равны), тем больше размер выборки требуется.
✍ Allocation ratio (коэффициент распределения) - соотношение размеров выборок двух параллельных групп с двумя видами
лечения в исследовании (например, в рандомизированном). Чем коэффициент больше 1 (размеры групп равны), тем больше размер выборки требуется.