#глоссарий
Статистический глоссарий для исследований с причинно-следственными выводами
✅ Причинно-следственная диаграмма (ориентированный или направленный ациклический граф, DAG) - диаграмма, показывающая причинно-следственные связи между переменными (узлами) с помощью направленных стрелок. Отсутствие стрелки между двумя узлами означает отсутствие прямого причинного эффекта.
DAG используется для моделирования и визуализации причинно-следственных отношений между событиями, условиями и результатами. Вершины в DAG представляют события, факторы или состояния, а рёбра между ними - причинно-следственные связи.
При этом DAG должен удовлетворять следующим условиям:
➡️ Направленность рёбер показывает направление причинно-следственной связи - из одной вершины в другую.
➡️ Отсутствие циклов, так как причина не может быть следствием самой себя.
➡️ Каждая вершина может иметь несколько предшествующих причин и несколько следствий.
Статистический глоссарий для исследований с причинно-следственными выводами
✅ Причинно-следственная диаграмма (ориентированный или направленный ациклический граф, DAG) - диаграмма, показывающая причинно-следственные связи между переменными (узлами) с помощью направленных стрелок. Отсутствие стрелки между двумя узлами означает отсутствие прямого причинного эффекта.
DAG используется для моделирования и визуализации причинно-следственных отношений между событиями, условиями и результатами. Вершины в DAG представляют события, факторы или состояния, а рёбра между ними - причинно-следственные связи.
При этом DAG должен удовлетворять следующим условиям:
➡️ Направленность рёбер показывает направление причинно-следственной связи - из одной вершины в другую.
➡️ Отсутствие циклов, так как причина не может быть следствием самой себя.
➡️ Каждая вершина может иметь несколько предшествующих причин и несколько следствий.
👍1👎1
✅ Ассоциация - статистическая зависимость, относящаяся к любой взаимосвязи между двумя переменными. Например, корреляция, отношение шансов, любой вид регресии ...
✅ Мера ассоциации - величина взаимосвязи между двумя переменными, либо в абсолютном, либо в относительном выражении. Абсолютные меры ассоциации: разность рисков, разность частот. Относительные меры ассоциации - соотношения мер, например, отношение рисков, отношение шансов.
✅ Коллайдер - переменная, являющаяся общим следствием двух других переменных.
✅ Модификатор эффекта - переменная, которая может изменять (модифицировать) силу влияния основного фактора (воздействия) на исходное событие. Наличие сопутствующих заболеваний может менять влияние основного диагноза на прогноз. Например, сахарный диабет ухудшает прогноз при инфаркте миокарда. Модификатор эффекта не является причиной исхода, но может влиять на силу связи между фактором риска и исходом, усиливая или ослабляя ее.
✅ Конфаундер - переменная, которая одновременно влияет как на предполагаемую причину, так и на исходное событие/результат. Она спутывает или искажает взаимосвязь между фактором риска и исходом. Например, курение и пассивное курение оба влияют на риск рака легких. Пассивное курение - конфаундер, искажающий связь активного курения с раком.
✅ Медиатор - переменная, которая появляется под воздействием независимой переменной и сама влияет на зависимую переменную. Она лежит на пути причинно-следственной цепи. Например, курение (воздействие) повышает уровень холестерина (медиатор), что в свою очередь увеличивает риск инфаркта (исход).
✅ Конфаундирование - искажение результатов исхода из-за действия конфаундера.
✅ Корреляция - любая монотонная взаимосвязь между переменными. Функция корреляции монотонно возрастает или убывает, то есть при увеличении/уменьшении одной переменной, другая переменная также непременно увеличивается или убывает.
✅ Эффект (или причинный эффект) - изменение в результирующей переменной (В), обусловленное вмешательством или изменением в предшествующей переменной (А). Для того, чтобы говорить об причинном эффекте и делать причинный вывод (Causal inference), необходимо выполнение следующих критериев:
- изменение в переменной А должно предшествовать изменению в переменной B во времени
- изменение в A должно быть связано с изменением в B причинно-следственными, а не случайными связями
- эффект должен проявляться на уровне отдельных наблюдениий/испытуемых. То есть при изменении А у конкретного объекта должно наблюдаться изменение В
- эффект оценивается на популяционном уровне как разница в среднем изменении В между группами с разным уровнем А.
"Золотым стандартом" оценки причинного эффекта являются рандомизированные клинические исследования.
✅ Нулевая гипотеза - гипотеза, которая выдвигается как предполагаемый факт для проверки, часто соответствует отсутствию ассоциации между двумя переменными в популяции.
✅ Меры проявления заболевания - числовые показатели, характеризующие заболевание в популяции: распространенность, заболеваемость, инцидентность (вероятность возникновения НОВОГО случая заболевания за определенный период во времени), риск.
✅ Склонность к ошибке при недостатке данных (Sparse-data bias) - искажение результатов, возникающее вследствие недостатка данных и приводящее к недостоверным оценкам величины эффекта. Это проблема любых прогностических моделей, которые строятся на малых выборках.
✅ Мера ассоциации - величина взаимосвязи между двумя переменными, либо в абсолютном, либо в относительном выражении. Абсолютные меры ассоциации: разность рисков, разность частот. Относительные меры ассоциации - соотношения мер, например, отношение рисков, отношение шансов.
✅ Коллайдер - переменная, являющаяся общим следствием двух других переменных.
✅ Модификатор эффекта - переменная, которая может изменять (модифицировать) силу влияния основного фактора (воздействия) на исходное событие. Наличие сопутствующих заболеваний может менять влияние основного диагноза на прогноз. Например, сахарный диабет ухудшает прогноз при инфаркте миокарда. Модификатор эффекта не является причиной исхода, но может влиять на силу связи между фактором риска и исходом, усиливая или ослабляя ее.
✅ Конфаундер - переменная, которая одновременно влияет как на предполагаемую причину, так и на исходное событие/результат. Она спутывает или искажает взаимосвязь между фактором риска и исходом. Например, курение и пассивное курение оба влияют на риск рака легких. Пассивное курение - конфаундер, искажающий связь активного курения с раком.
✅ Медиатор - переменная, которая появляется под воздействием независимой переменной и сама влияет на зависимую переменную. Она лежит на пути причинно-следственной цепи. Например, курение (воздействие) повышает уровень холестерина (медиатор), что в свою очередь увеличивает риск инфаркта (исход).
✅ Конфаундирование - искажение результатов исхода из-за действия конфаундера.
✅ Корреляция - любая монотонная взаимосвязь между переменными. Функция корреляции монотонно возрастает или убывает, то есть при увеличении/уменьшении одной переменной, другая переменная также непременно увеличивается или убывает.
✅ Эффект (или причинный эффект) - изменение в результирующей переменной (В), обусловленное вмешательством или изменением в предшествующей переменной (А). Для того, чтобы говорить об причинном эффекте и делать причинный вывод (Causal inference), необходимо выполнение следующих критериев:
- изменение в переменной А должно предшествовать изменению в переменной B во времени
- изменение в A должно быть связано с изменением в B причинно-следственными, а не случайными связями
- эффект должен проявляться на уровне отдельных наблюдениий/испытуемых. То есть при изменении А у конкретного объекта должно наблюдаться изменение В
- эффект оценивается на популяционном уровне как разница в среднем изменении В между группами с разным уровнем А.
"Золотым стандартом" оценки причинного эффекта являются рандомизированные клинические исследования.
✅ Нулевая гипотеза - гипотеза, которая выдвигается как предполагаемый факт для проверки, часто соответствует отсутствию ассоциации между двумя переменными в популяции.
✅ Меры проявления заболевания - числовые показатели, характеризующие заболевание в популяции: распространенность, заболеваемость, инцидентность (вероятность возникновения НОВОГО случая заболевания за определенный период во времени), риск.
✅ Склонность к ошибке при недостатке данных (Sparse-data bias) - искажение результатов, возникающее вследствие недостатка данных и приводящее к недостоверным оценкам величины эффекта. Это проблема любых прогностических моделей, которые строятся на малых выборках.
👍2
Про коэффициент корреляции Мэтьюса - Matthews correlation coefficient (MCC)
Используется в задачах прогнозирования и оценки точности прогноза. Он позволяет оценить, насколько прогноз хорошо соответствует фактическим результатам, учитывая:
Верные положительные прогнозы (True Positives - TP) - случаи, когда событие наступило и модель его предсказала.
Ложные положительные прогнозы (False Positives - FP) - случаи, когда событие не наступило, но модель предсказала его.
Верные отрицательные прогнозы (True Negatives - TN) - случаи, когда событие не наступило и модель верно предсказала этот факт.
Ложные отрицательные прогнозы (False Negatives - FN) - случаи, когда событие все-таки наступило, но модель этого не предвидела.
Формула Мэтьюса учитывает все эти случаи, давая общую оценку точности прогнозирования. Чем ближе коэффициент к 1, тем лучше прогноз.
Используется в задачах прогнозирования и оценки точности прогноза. Он позволяет оценить, насколько прогноз хорошо соответствует фактическим результатам, учитывая:
Верные положительные прогнозы (True Positives - TP) - случаи, когда событие наступило и модель его предсказала.
Ложные положительные прогнозы (False Positives - FP) - случаи, когда событие не наступило, но модель предсказала его.
Верные отрицательные прогнозы (True Negatives - TN) - случаи, когда событие не наступило и модель верно предсказала этот факт.
Ложные отрицательные прогнозы (False Negatives - FN) - случаи, когда событие все-таки наступило, но модель этого не предвидела.
Формула Мэтьюса учитывает все эти случаи, давая общую оценку точности прогнозирования. Чем ближе коэффициент к 1, тем лучше прогноз.
👍2
p-уровень значимости - краеугольный камень классической частотной (фриквентисткой) статистики
Примерно 100 лет назад статистик Рональд Фишер несколько произвольно предложил считать порогом статистической значимости превышение p-значения <0.05 (<1 к 20 - что сродни 95%-ному доверительному интервалу). Этот порог часто обсуждался и обсуждается до сих пор с момента его введения, но он выдержал испытание временем, и используется по настоящее время, в том числе в медицине. Но для большинства исследователей все свелось к тому, что конкретное "пороговое" значение p-value, например =0.05, считается каким-то священным числом. И это большая проблема!
❌ p-уровень статистической значимости не говорит нам о том, "сработало" ли лечение или нет, если был достигнут этот порог!
❌ p-уровень статистической значимости не должен рассматриваться как черно-белый дихотомический критерий того, следует ли считать результат клинически (практически) значимым или нет!
Желание исследователей показать, что наблюдаемые ими различия "реальны", привело к тому, что многие идут на махинации, чтобы их результаты достигли порога статистической значимости. Например, некоторых исследователей так сильно это волнует, что они указываю p-значение с большим количеством десятичных знаков (например, 0.0498), чтобы убедиться, что их результаты статистически значимы (<0.05).
✅ На самом деле p-уровень значимости говорит нам только об одном и больше ни о чем - с какой вероятностью достигнутый или более экстремальный результат может быть повторно получен в новом эксперименте при условии верности нулевой гипотезы или другими словами - видимый результат не случаен. Если p-уровень значимости менее 5%, то такая вероятность высокая, так как если нулевая гипотеза верна, то мы вряд ли бы получили наблюдаемый результат. А значит у нас есть все основания отвергнуть нулевую гипотезу в пользу альтернативной.
Если еще проще, то чем ниже p-уровень статистической значимости, тем больше вероятность получить такой же результат в повторных экспериментах. Это и есть статистический вывод, хотя он не всегда и всем интуитивно понятен. То есть речь только о вероятности (точнее даже о частоте) повторения наблюдаемого результата во множестве гипотетических повторных экспериментах.
Часто из-за чрезмерного упрощения и стереотипов правильная интерпретация p-уровня статистической значимости превращается в "эффективность терапии", "факторы риска" и во все, что хочется, принебрегая конкретными цифрами и логическими рассуждениями в контексте проводимых исследований.
Пример: мы сравнили два вида терапии А и В. Число ответов на лечение при использовании терапии А больше, чем при терапии В, p=0.03. Это означает, что если мы повторим исследование с другими выборками пациентов и тем же дизайном, то мы с большой долей вероятности получим такой же или более различающийся результат между двумя этими методами лечения. Можно ли на основании этого сделать вывод, что лечение А, эффективнее В? Ответить на этот вопрос нельзя, потому что он не корректный. Эффективность лечения - это не p-уровень статистической значимости и его величина, это конретное число (%) ответивших пациентов, а также оценка соотношения риск/польза. А p-уровень значимости лишь помогает нам принять данные оценки как не случайные.
Примерно 100 лет назад статистик Рональд Фишер несколько произвольно предложил считать порогом статистической значимости превышение p-значения <0.05 (<1 к 20 - что сродни 95%-ному доверительному интервалу). Этот порог часто обсуждался и обсуждается до сих пор с момента его введения, но он выдержал испытание временем, и используется по настоящее время, в том числе в медицине. Но для большинства исследователей все свелось к тому, что конкретное "пороговое" значение p-value, например =0.05, считается каким-то священным числом. И это большая проблема!
❌ p-уровень статистической значимости не говорит нам о том, "сработало" ли лечение или нет, если был достигнут этот порог!
❌ p-уровень статистической значимости не должен рассматриваться как черно-белый дихотомический критерий того, следует ли считать результат клинически (практически) значимым или нет!
Желание исследователей показать, что наблюдаемые ими различия "реальны", привело к тому, что многие идут на махинации, чтобы их результаты достигли порога статистической значимости. Например, некоторых исследователей так сильно это волнует, что они указываю p-значение с большим количеством десятичных знаков (например, 0.0498), чтобы убедиться, что их результаты статистически значимы (<0.05).
✅ На самом деле p-уровень значимости говорит нам только об одном и больше ни о чем - с какой вероятностью достигнутый или более экстремальный результат может быть повторно получен в новом эксперименте при условии верности нулевой гипотезы или другими словами - видимый результат не случаен. Если p-уровень значимости менее 5%, то такая вероятность высокая, так как если нулевая гипотеза верна, то мы вряд ли бы получили наблюдаемый результат. А значит у нас есть все основания отвергнуть нулевую гипотезу в пользу альтернативной.
Если еще проще, то чем ниже p-уровень статистической значимости, тем больше вероятность получить такой же результат в повторных экспериментах. Это и есть статистический вывод, хотя он не всегда и всем интуитивно понятен. То есть речь только о вероятности (точнее даже о частоте) повторения наблюдаемого результата во множестве гипотетических повторных экспериментах.
Часто из-за чрезмерного упрощения и стереотипов правильная интерпретация p-уровня статистической значимости превращается в "эффективность терапии", "факторы риска" и во все, что хочется, принебрегая конкретными цифрами и логическими рассуждениями в контексте проводимых исследований.
Пример: мы сравнили два вида терапии А и В. Число ответов на лечение при использовании терапии А больше, чем при терапии В, p=0.03. Это означает, что если мы повторим исследование с другими выборками пациентов и тем же дизайном, то мы с большой долей вероятности получим такой же или более различающийся результат между двумя этими методами лечения. Можно ли на основании этого сделать вывод, что лечение А, эффективнее В? Ответить на этот вопрос нельзя, потому что он не корректный. Эффективность лечения - это не p-уровень статистической значимости и его величина, это конретное число (%) ответивших пациентов, а также оценка соотношения риск/польза. А p-уровень значимости лишь помогает нам принять данные оценки как не случайные.
👍4👎1
Сегодня, 14 марта, — Международный день числа Пи.
✅ Число «Пи» представляет собой математическую константу и является отношением длины окружности к ее диаметру. В цифровом выражении «Пи» начинается как 3,141592... и имеет бесконечную математическую продолжительность.
✅ Придумал этот неофициальный праздник физик из Сан-Франциско Ларри Шоу, который подметил, что в американской системе записи дат (месяц/число) день 14 марта — 3/14 — совпадает с первыми разрядами числа «Пи» = 3,14…
✅ В этот день в учебных заведениях полагается читать лекции о загадочном числе «Пи» и «проводить мероприятия, направленные на повышение интереса к математике».
Каждый год 14 марта в 1:59:26 люди, интересующиеся математикой, празднуют «День числа Пи», пекут круглый торт, усаживаются за круглый стол и обсуждают число π, решают задачи и головоломки, связанные с «Пи».
✅ В английском языке слова pie (пирог) и pi (число π) звучат одинаково, и поэтому приготовление и поедание пирогов стало веселой частью праздника.
✅ В числе «Пи» можно найти самые различные последовательности чисел, например, свою дату рождения или номер сотового телефона. Это можно проверить на первых 200 миллионах знаках после запятой здесь.
✅ В сериале «Звездный путь» один из персонажей побеждает злой компьютер, предложив ему вычислить последнюю цифру числа. Тот не выдержал перегрузки и сгорел.
✅ Вниманием это число не обошли и поэты. Неизвестный написал: «Надо только постараться и запомнить все, как есть – три, четырнадцать, пятнадцать, девяносто два и шесть».
✅ Число «Пи» представляет собой математическую константу и является отношением длины окружности к ее диаметру. В цифровом выражении «Пи» начинается как 3,141592... и имеет бесконечную математическую продолжительность.
✅ Придумал этот неофициальный праздник физик из Сан-Франциско Ларри Шоу, который подметил, что в американской системе записи дат (месяц/число) день 14 марта — 3/14 — совпадает с первыми разрядами числа «Пи» = 3,14…
✅ В этот день в учебных заведениях полагается читать лекции о загадочном числе «Пи» и «проводить мероприятия, направленные на повышение интереса к математике».
Каждый год 14 марта в 1:59:26 люди, интересующиеся математикой, празднуют «День числа Пи», пекут круглый торт, усаживаются за круглый стол и обсуждают число π, решают задачи и головоломки, связанные с «Пи».
✅ В английском языке слова pie (пирог) и pi (число π) звучат одинаково, и поэтому приготовление и поедание пирогов стало веселой частью праздника.
✅ В числе «Пи» можно найти самые различные последовательности чисел, например, свою дату рождения или номер сотового телефона. Это можно проверить на первых 200 миллионах знаках после запятой здесь.
✅ В сериале «Звездный путь» один из персонажей побеждает злой компьютер, предложив ему вычислить последнюю цифру числа. Тот не выдержал перегрузки и сгорел.
✅ Вниманием это число не обошли и поэты. Неизвестный написал: «Надо только постараться и запомнить все, как есть – три, четырнадцать, пятнадцать, девяносто два и шесть».
www.angio.net
The Pi-Search Page
Search for any string of digits in the first 200 million digits of Pi
❤3
Про доверительный интервал (ДИ) и не только
Допустим результаты исследования показали, что среди пациентов из нашей выборки 40% ответили на лечение, а 95%ДИ (confidence interval) составил 37-43%. Как это интерпретировать? Какой будет истинный результат лечения, если мы применим данную терапию у новых пациентов. ДИ (погрешность измерения) тем больше, чем меньше размер выборки. Погрешность не означает, что мы знаем, что истинный результат находится где-то между 37 и 43%. На самом деле, мы НИКОГДА не сможем узнать истинный результат на каждой новой выборке, пока не повторим эксперимент снова. Что мы можем сказать, так это то, что если мы проведем аналогичное исследование, например 100 раз, то результат эффективности терапии в 95% экспериментов будет лежать в интервале 37-43%, а в 5% он будет иным.
Частотная статистика опирается на идею эмпирической (не истинной) вероятности - частоте повторений определенного события в большом количестве одинаковых испытаний. В частотной статистике вероятность события приравнивается к частоте получения определенных результатов в других выборках (экспериментах). Другими словами в частотной статистике мы получаем вероятность получения изучаемого нами результата (доказательства гипотезы) в новом эксперименте, если наша гипотеза верна. Если например p=0.01, значит вероятность получить такой же или более экстремальный результат в новом эксперименте равняется 99% при верности проверяемой (альтернативной) гипотезы или 1% - при верности нулевой. Поэтому в этом случае у нас есть основания принять альтернативную гипотезу и не принять нулевую. Но мы не получаем истинную вероятность изучаемого результата. В байесовской статистике изучается вероятность самого изучаемого явления (вероятность самой гипотезы), на основании полученных в эксперименте результатов (новых данных), а не вероятность повторить или улучшить результат в новом эксперименте. В байесовской статистике ДИ называется "интервалом, заслуживающий доверия" (credible interval), вычисляется он байесовскими методами и означает интервал, который с 95% (или другой) вероятностью будет содержать истинное значение. Что важнее и понятнее в решении реальных задач - извечный спор между байесовцами и фриквентистами. При больших размерах выборок результаты байесовоской и частотной статистики становятся очень схожими.
Понятие "истинной вероятности" довольно сложное. Есть несколько трактовок:
✅ С точки зрения частотной интерпретации, истинная вероятность - предел частоты при бесконечном количестве испытаний. На практике она не может быть точно вычислена, так как нелья провести бесконечное число экспериментов, а результат сильно зависит от размеров выборки.
✅ В философском смысле истинная вероятность - свойство объекта или события, которое не зависит от нашего знания. Её также нельзя непосредственно измерить. Всегда существует фундаментальная неопределенность.
✅ В байесовском подходе говорят о байесовской вероятности - степени уверенности или вере в определённый исход после учёта всей доступной информации (новых данных). Это также отчасти субъективная оценка. Байесовская статистика использует апостериорные вероятности, основанные на имеющейся заранее (априорной) информации, которая обновляется до апостериорного значения по результатам эксперимента. Это более близкий подход к изучению истинных вероятностей событий и явлений. Некоторые исследователи даже считают, то, что медицина до сих пор не приняла байесовский анализ в XXI веке, - это самый большой медицинский скандал.
Допустим результаты исследования показали, что среди пациентов из нашей выборки 40% ответили на лечение, а 95%ДИ (confidence interval) составил 37-43%. Как это интерпретировать? Какой будет истинный результат лечения, если мы применим данную терапию у новых пациентов. ДИ (погрешность измерения) тем больше, чем меньше размер выборки. Погрешность не означает, что мы знаем, что истинный результат находится где-то между 37 и 43%. На самом деле, мы НИКОГДА не сможем узнать истинный результат на каждой новой выборке, пока не повторим эксперимент снова. Что мы можем сказать, так это то, что если мы проведем аналогичное исследование, например 100 раз, то результат эффективности терапии в 95% экспериментов будет лежать в интервале 37-43%, а в 5% он будет иным.
Частотная статистика опирается на идею эмпирической (не истинной) вероятности - частоте повторений определенного события в большом количестве одинаковых испытаний. В частотной статистике вероятность события приравнивается к частоте получения определенных результатов в других выборках (экспериментах). Другими словами в частотной статистике мы получаем вероятность получения изучаемого нами результата (доказательства гипотезы) в новом эксперименте, если наша гипотеза верна. Если например p=0.01, значит вероятность получить такой же или более экстремальный результат в новом эксперименте равняется 99% при верности проверяемой (альтернативной) гипотезы или 1% - при верности нулевой. Поэтому в этом случае у нас есть основания принять альтернативную гипотезу и не принять нулевую. Но мы не получаем истинную вероятность изучаемого результата. В байесовской статистике изучается вероятность самого изучаемого явления (вероятность самой гипотезы), на основании полученных в эксперименте результатов (новых данных), а не вероятность повторить или улучшить результат в новом эксперименте. В байесовской статистике ДИ называется "интервалом, заслуживающий доверия" (credible interval), вычисляется он байесовскими методами и означает интервал, который с 95% (или другой) вероятностью будет содержать истинное значение. Что важнее и понятнее в решении реальных задач - извечный спор между байесовцами и фриквентистами. При больших размерах выборок результаты байесовоской и частотной статистики становятся очень схожими.
Понятие "истинной вероятности" довольно сложное. Есть несколько трактовок:
✅ С точки зрения частотной интерпретации, истинная вероятность - предел частоты при бесконечном количестве испытаний. На практике она не может быть точно вычислена, так как нелья провести бесконечное число экспериментов, а результат сильно зависит от размеров выборки.
✅ В философском смысле истинная вероятность - свойство объекта или события, которое не зависит от нашего знания. Её также нельзя непосредственно измерить. Всегда существует фундаментальная неопределенность.
✅ В байесовском подходе говорят о байесовской вероятности - степени уверенности или вере в определённый исход после учёта всей доступной информации (новых данных). Это также отчасти субъективная оценка. Байесовская статистика использует апостериорные вероятности, основанные на имеющейся заранее (априорной) информации, которая обновляется до апостериорного значения по результатам эксперимента. Это более близкий подход к изучению истинных вероятностей событий и явлений. Некоторые исследователи даже считают, то, что медицина до сих пор не приняла байесовский анализ в XXI веке, - это самый большой медицинский скандал.
👍3👎2
Про ограниченное среднее время выживания (Restricted Mean Survival Time, RMST) в анализе выживаемости
✅ RMST - площадь под кривой выживаемости за ограниченный промежуток времени. Более конкретно, если S(t) - функция выживаемости (кумулятивная доля выживших) во времени t:
RMST за время t - интеграл S(t) от 0 до t. То есть это математическая площадь под кривой выживаемости S(t) от начала наблюдения до фиксированного момента времени t.
✅ RMST предлагается в качестве новой альтернативной меры в анализе выживаемости, которая может быть полезна, когда невозможно сделать предположение о пропорциональных рисках (опасностях) или когда частота событий низка.
✅ RMST определяется как площадь под кривой выживаемости до определённой временной точки и, как правило, оценивается более надёжно, чем медиана выживания.
✅ Для получения клинически значимого RMST необходимо чётко выбрать временной горизонт для оценки, например, за 1-, 2-, 5-лет.
✅ В случае пересечения кривых выживаемости, что может указывать на нарушение пропорциональности рисков, эффективность вмешательства, например, терапии, можно продемонстрировать, показав разность в RMST между кривыми, несмотря на то, что log-rank тест будет статистически незначим, а HR не применим.
✅ Разница между RMST двух групп - разность между площадями под кривыми выживаемости этих групп за один и тот же период t.
✅ RMST - площадь под кривой выживаемости за ограниченный промежуток времени. Более конкретно, если S(t) - функция выживаемости (кумулятивная доля выживших) во времени t:
RMST за время t - интеграл S(t) от 0 до t. То есть это математическая площадь под кривой выживаемости S(t) от начала наблюдения до фиксированного момента времени t.
✅ RMST предлагается в качестве новой альтернативной меры в анализе выживаемости, которая может быть полезна, когда невозможно сделать предположение о пропорциональных рисках (опасностях) или когда частота событий низка.
✅ RMST определяется как площадь под кривой выживаемости до определённой временной точки и, как правило, оценивается более надёжно, чем медиана выживания.
✅ Для получения клинически значимого RMST необходимо чётко выбрать временной горизонт для оценки, например, за 1-, 2-, 5-лет.
✅ В случае пересечения кривых выживаемости, что может указывать на нарушение пропорциональности рисков, эффективность вмешательства, например, терапии, можно продемонстрировать, показав разность в RMST между кривыми, несмотря на то, что log-rank тест будет статистически незначим, а HR не применим.
✅ Разница между RMST двух групп - разность между площадями под кривыми выживаемости этих групп за один и тот же период t.
🔥1
Про проблемы таблицы 1
В различных клинически исследованиях часто можно видеть, как базовые характеристики пациентов подвергаются описательной сравнительной статистике, при этом каждая базовая характеристика в таблице №1 (чаще всего) имеет соответствующее p-значение. Например, группы пациентов сравниваются по стадиям, полу, возрасту и т.д. Мы хотим узнать, повлияли ли различия в исходных характеристиках пациентов на конечный наблюдаемый результат, например, на эффективность терапии. Чтобы ответить на этот вопрос нам необходимо точно знать, каковы были различия в исходных характеристиках. Поскольку у нас есть исходные характеристики для всех участников выборки исследования, нам нужна лишь простая описательная статистика (на- или во сколько раз они отличаются и могут ли полученные различия иметь клинический эффект). Вопрос не в том, являются ли различия статистически значимыми. Вопрос заключается в том, достаточно ли велики абсолютные различия между группами по исходным характеристикам, чтобы повлиять на результат. На него можно ответить, изучив описательную статистику и используя клиническое суждение, а не p-уровень значимости, который лишь помогает предположить, что наблюдаемая разница была обусловлена исключительно случайностью, и просто дает нам оценку вероятности такого развития событий при множестве возможных повторений исследования. Нет смысла использовать различные статистические тесты для сравнения пациентов по базовым характеристикам, достаточно представить и описать их как есть.
Не нужно проверять статистическую значимость различий между группами по базовым характеристикам (пол, возраст и т.п.) в следующих случаях:
✅ Если характеристики (например, пол) не являются результатом вмешательства (например, лечения). Различия по ним могут быть случайными.
✅ Даже если различия статистически значимы, они не несут информации о причинно-следственных связях между базовыми характеристиками и изучаемым исходом.
✅ Интерпретация статистически значимых различий между признаками может привести к ложноположительным выводам об их влиянии на результаты изучаемого исхода.
Можно проверять значимость различий по базовым характеристикам пациентов в следующих случаях:
✅ Если пациенты подвергались рандомизации, тогда различия могут указывать на проблемы с ее проведением - оценка качества рандомизации. Обоснованность такого подхода является спорным и называется "заблуждение" таблицы 1 (the table 1 fallacy).
✅ Существует предварительная гипотеза о влиянии конкретного признака на результат.
Краткий вывод: не стоит заморачиваться поиском статистически значимых различий базовых характеристик в группах (через тесты Хи2, тест Манна-Уитни и др.) только ради формального сравнения, если это не является целью исследования.
В различных клинически исследованиях часто можно видеть, как базовые характеристики пациентов подвергаются описательной сравнительной статистике, при этом каждая базовая характеристика в таблице №1 (чаще всего) имеет соответствующее p-значение. Например, группы пациентов сравниваются по стадиям, полу, возрасту и т.д. Мы хотим узнать, повлияли ли различия в исходных характеристиках пациентов на конечный наблюдаемый результат, например, на эффективность терапии. Чтобы ответить на этот вопрос нам необходимо точно знать, каковы были различия в исходных характеристиках. Поскольку у нас есть исходные характеристики для всех участников выборки исследования, нам нужна лишь простая описательная статистика (на- или во сколько раз они отличаются и могут ли полученные различия иметь клинический эффект). Вопрос не в том, являются ли различия статистически значимыми. Вопрос заключается в том, достаточно ли велики абсолютные различия между группами по исходным характеристикам, чтобы повлиять на результат. На него можно ответить, изучив описательную статистику и используя клиническое суждение, а не p-уровень значимости, который лишь помогает предположить, что наблюдаемая разница была обусловлена исключительно случайностью, и просто дает нам оценку вероятности такого развития событий при множестве возможных повторений исследования. Нет смысла использовать различные статистические тесты для сравнения пациентов по базовым характеристикам, достаточно представить и описать их как есть.
Не нужно проверять статистическую значимость различий между группами по базовым характеристикам (пол, возраст и т.п.) в следующих случаях:
✅ Если характеристики (например, пол) не являются результатом вмешательства (например, лечения). Различия по ним могут быть случайными.
✅ Даже если различия статистически значимы, они не несут информации о причинно-следственных связях между базовыми характеристиками и изучаемым исходом.
✅ Интерпретация статистически значимых различий между признаками может привести к ложноположительным выводам об их влиянии на результаты изучаемого исхода.
Можно проверять значимость различий по базовым характеристикам пациентов в следующих случаях:
✅ Если пациенты подвергались рандомизации, тогда различия могут указывать на проблемы с ее проведением - оценка качества рандомизации. Обоснованность такого подхода является спорным и называется "заблуждение" таблицы 1 (the table 1 fallacy).
✅ Существует предварительная гипотеза о влиянии конкретного признака на результат.
Краткий вывод: не стоит заморачиваться поиском статистически значимых различий базовых характеристик в группах (через тесты Хи2, тест Манна-Уитни и др.) только ради формального сравнения, если это не является целью исследования.
Про категоризацию количественных переменных в прогностических моделях
✅ Категоризация непрерывных предикторов в прогностических моделях приводит к созданию моделей с более слабыми прогностическими характеристиками.
✅ Дихотомия по медиане предиктора является неадекватным подходом, так как навязывает нереалистичную и неверную взаимосвязь предиктора и исхода.
✅ Категоризация приводит к значительным затратам на создание прогностических моделей, которые контрпродуктивны.
✅ Рекомендуется оставлять предикторы непрерывными во время моделирования и упростить конечную модель с помощью балльной системы.
✅ Моделирование нелинейной зависимости с помощью дробных полиномов или ограниченных кубических сплайнов приводит к незначительным различиям в производительности модели (вполне допустимо).
✅ Меньшие размеры выборки приводят к большей вариабельности результативности модели (нестабильности).
✅ Необходимо следовать методологии построения прогностических моделей, которая не допускает категоризации количественных переменных.
✅ Категоризация непрерывных предикторов в прогностических моделях приводит к созданию моделей с более слабыми прогностическими характеристиками.
✅ Дихотомия по медиане предиктора является неадекватным подходом, так как навязывает нереалистичную и неверную взаимосвязь предиктора и исхода.
✅ Категоризация приводит к значительным затратам на создание прогностических моделей, которые контрпродуктивны.
✅ Рекомендуется оставлять предикторы непрерывными во время моделирования и упростить конечную модель с помощью балльной системы.
✅ Моделирование нелинейной зависимости с помощью дробных полиномов или ограниченных кубических сплайнов приводит к незначительным различиям в производительности модели (вполне допустимо).
✅ Меньшие размеры выборки приводят к большей вариабельности результативности модели (нестабильности).
✅ Необходимо следовать методологии построения прогностических моделей, которая не допускает категоризации количественных переменных.
👍1🔥1
Представим, что вы исследуете препарат для снижения артериального давления (АД) по сравнению с плацебо. Тогда вывод традицинной частотной статистики будет звучать примерно так: АД в среднем снизилось на 10 мм рт.ст. (p=0.02). Это означает, что вероятность получить такой или более экстремальный результат, при условии, что исследуемый препарат не отличается от плацебо, составляет 2%.
Если же использовать методы байесовской статистики, то можно получить следующие выводы: при использовании исследуемого препарата вероятность снижения АД более, чем на 0 мм рт. ст. равняется N% или вероятность снижения АД более чем на 5 мм рт. ст. равняется N% или вероятность, что снижение АД будет между 5 и 10 мм рт. ст. равняется N%. И т.д., ну вы поняли...
Если же использовать методы байесовской статистики, то можно получить следующие выводы: при использовании исследуемого препарата вероятность снижения АД более, чем на 0 мм рт. ст. равняется N% или вероятность снижения АД более чем на 5 мм рт. ст. равняется N% или вероятность, что снижение АД будет между 5 и 10 мм рт. ст. равняется N%. И т.д., ну вы поняли...
Какие выводы более интересны для вас с точки зрения практического использования данного препарата?
Anonymous Poll
50%
Вывод частотной статистики
50%
Выводы байесовской статистики
Про активное обучение прогностических моделей
🤖 Активное обучение - semi-supervised метод машинного обучения (отчасти с учителем, отчасти без учителя). При создании прогностической модели часто нужно много размеченных данных. Размеченные (маркированные) наборы данных в реальном мире не встречаются, а получить доступ к уже маркированным данным обычно не получается, особенно в медицине. Представим, что у нас есть 10 тысяч не размеченных данных для создания некой диагностической модели. Данные могут быть любые - структурированные, текстовые или медицинские изображения. Идеально - разметить их все перед началом построения модели, если этого не было сделать (supervised learning) - отнести каждый образец к тому или иному диагнозу или группе. Но это трудозатратно для эксперта (ов) в данной предметной области.
Вот общий план того, как можно поступить:
1. Разметьте только 1000 (10%) образцов данных и постройте модель
2. Используйте эту модель для разметки 9000 оставшихся образцов
3. Выделите, например, 10% образцов, на которых модель показывает наибольшую неуверенность в предсказаниях*
4. Проведите ручную разметку только этих "худших" образов. Образцы с наибольшей уверенностью можно оставить размеченными моделью как есть
5. Постройте новую модель на новых размеченных данных (их станет уже больше) и повторите шаги выше пока не промаркируете весь датасет
* Для определения качества предсказания можно использовать, например, коэффициент уверенности (КУ): 1 - (N*(1-Pmax)/(N-1)), где N - число прогнозируемых исходов (классов), Pmax - максимальная вероятность того, что образец относится к тому или иному классу, посчитанная моделью. КУ при этом будет колебаться от 0 до 1. Образцы с КУ ниже 0.1, 0.2, 0.5 (порог может быть любым на усмотрение) можно отнести к "худшим" образцам, а с КУ более 0.8 или 0.9 - к "наилучшим".
🤖 Активное обучение - semi-supervised метод машинного обучения (отчасти с учителем, отчасти без учителя). При создании прогностической модели часто нужно много размеченных данных. Размеченные (маркированные) наборы данных в реальном мире не встречаются, а получить доступ к уже маркированным данным обычно не получается, особенно в медицине. Представим, что у нас есть 10 тысяч не размеченных данных для создания некой диагностической модели. Данные могут быть любые - структурированные, текстовые или медицинские изображения. Идеально - разметить их все перед началом построения модели, если этого не было сделать (supervised learning) - отнести каждый образец к тому или иному диагнозу или группе. Но это трудозатратно для эксперта (ов) в данной предметной области.
Вот общий план того, как можно поступить:
1. Разметьте только 1000 (10%) образцов данных и постройте модель
2. Используйте эту модель для разметки 9000 оставшихся образцов
3. Выделите, например, 10% образцов, на которых модель показывает наибольшую неуверенность в предсказаниях*
4. Проведите ручную разметку только этих "худших" образов. Образцы с наибольшей уверенностью можно оставить размеченными моделью как есть
5. Постройте новую модель на новых размеченных данных (их станет уже больше) и повторите шаги выше пока не промаркируете весь датасет
* Для определения качества предсказания можно использовать, например, коэффициент уверенности (КУ): 1 - (N*(1-Pmax)/(N-1)), где N - число прогнозируемых исходов (классов), Pmax - максимальная вероятность того, что образец относится к тому или иному классу, посчитанная моделью. КУ при этом будет колебаться от 0 до 1. Образцы с КУ ниже 0.1, 0.2, 0.5 (порог может быть любым на усмотрение) можно отнести к "худшим" образцам, а с КУ более 0.8 или 0.9 - к "наилучшим".
🔥1
В исследовании изучалась эффективность терапии Х по сравнению с плацебо. Получен результат с p=0.07.
❌ Неправильный вывод: терапия X не эффективна или терапия Х не лучше, чем плацебо.
✅ Правильный вывод: не получено (не представлено) доказательств того, что терапия Х эффективнее, чем плацебо в контексте данного исследования и используемого статистического метода.
❌ Неправильный вывод: терапия X не эффективна или терапия Х не лучше, чем плацебо.
✅ Правильный вывод: не получено (не представлено) доказательств того, что терапия Х эффективнее, чем плацебо в контексте данного исследования и используемого статистического метода.
👍3🔥1
Какой должна быть хорошая медицинская прогностическая модель
1. Модель должна иметь практическую пользу!
✳️ помогать в принятии конкретных решений в диагностике или лечении
✳️ решать принципиально новые задачи или старые, но лучше, чем существующие модели
✳️ не давать прогнозов, с которыми неясно, что делать
2. Модель должна быть создана методологически правильно
✳️ обучающая выборка достаточно велика и репрезентативна, иначе модель будет нестабильной
✳️ модель хорошо откалибрована и позволяет получать результат в виде вероятности прогнозируемого события
✳️ модель должна быть провалидирована
3. Моделью легко пользоваться в реальной клинической практике
✳️ она максимально простая и не включает в себя трудно доступные для оценки факторы
✳️ представлена в виде медицинского калькулятора и/или цифрового приложения для расчета вероятности
Прогностические модели "под ключ" с вашими данными (дизайн, разработка модели, создание цифрового приложения-калькулятора) ➡️ @glivec
1. Модель должна иметь практическую пользу!
✳️ помогать в принятии конкретных решений в диагностике или лечении
✳️ решать принципиально новые задачи или старые, но лучше, чем существующие модели
✳️ не давать прогнозов, с которыми неясно, что делать
2. Модель должна быть создана методологически правильно
✳️ обучающая выборка достаточно велика и репрезентативна, иначе модель будет нестабильной
✳️ модель хорошо откалибрована и позволяет получать результат в виде вероятности прогнозируемого события
✳️ модель должна быть провалидирована
3. Моделью легко пользоваться в реальной клинической практике
✳️ она максимально простая и не включает в себя трудно доступные для оценки факторы
✳️ представлена в виде медицинского калькулятора и/или цифрового приложения для расчета вероятности
Прогностические модели "под ключ" с вашими данными (дизайн, разработка модели, создание цифрового приложения-калькулятора) ➡️ @glivec
This media is not supported in your browser
VIEW IN TELEGRAM
Парадокс Симпсона - статистический феномен, когда связь между двумя переменными может полностью измениться, если учесть третью переменную. При отсутствии тщательного анализа это часто приводит к противоречивым выводам.
Например, в наборе данных вы можете увидеть положительную тенденцию между переменными X и Y. Однако если разделить данные на подгруппы на основе третьей переменной, Z, тенденция может измениться или исчезнуть. Всегда учитывайте потенциальные скрытые переменные, которые могут повлиять на результаты. Будьте осторожны с агрегированными данными; иногда истинные знания кроются в подгруппах. Используйте визуализацию, чтобы лучше понять характер взаимосвязей в ваших данных. Подробнее здесь.
Например, в наборе данных вы можете увидеть положительную тенденцию между переменными X и Y. Однако если разделить данные на подгруппы на основе третьей переменной, Z, тенденция может измениться или исчезнуть. Всегда учитывайте потенциальные скрытые переменные, которые могут повлиять на результаты. Будьте осторожны с агрегированными данными; иногда истинные знания кроются в подгруппах. Используйте визуализацию, чтобы лучше понять характер взаимосвязей в ваших данных. Подробнее здесь.
👍1🔥1
Про бинарную (биномиальную) логистическую регрессиию
Бинарная логистическая регрессия (БЛР) - статистический метод прогнозирования бинарных исходов. Она оценивает вероятность того, что наблюдение принадлежит к определенной категории (1/0). В основе лежит сигмоидная функция (S-образная кривая на картинке) для получения вероятностей, по порогу которых (обычно 0.5) определяется нужный класс. БЛР применяется для решения задач бинарной классификации, для вычисления вероятностей, когда нужны интерпретируемые результаты и когда связи между признаками и результатом в основном линейны.
Плюсы:
- Легко понять и реализовать
- Быстрое обучение
- Предоставляет оценки вероятности
- По коэффициентам БЛР можно определить важность признаков
Минусы:
- Предполагает линейные взаимосвязи между логитом исхода и ковариатами
- Может не справляться со сложными паттернами
- Чувствительна к выбросам
- Может не справляться с несбалансированными данными
Бинарная логистическая регрессия (БЛР) - статистический метод прогнозирования бинарных исходов. Она оценивает вероятность того, что наблюдение принадлежит к определенной категории (1/0). В основе лежит сигмоидная функция (S-образная кривая на картинке) для получения вероятностей, по порогу которых (обычно 0.5) определяется нужный класс. БЛР применяется для решения задач бинарной классификации, для вычисления вероятностей, когда нужны интерпретируемые результаты и когда связи между признаками и результатом в основном линейны.
Плюсы:
- Легко понять и реализовать
- Быстрое обучение
- Предоставляет оценки вероятности
- По коэффициентам БЛР можно определить важность признаков
Минусы:
- Предполагает линейные взаимосвязи между логитом исхода и ковариатами
- Может не справляться со сложными паттернами
- Чувствительна к выбросам
- Может не справляться с несбалансированными данными
👍3🔥1
Про линейную регрессию
Линейная регрессия - статистический метод прогнозирования значения постоянной зависимой количественной переменной на основе одной или нескольких независимых переменных. Он оценивает взаимосвязь с помощью линейного уравнения. Линейное уравнение - прямая линия, которая моделирует связь между зависимой и независимой переменными, показывая, как изменения входящих характеристик влияют на целевое значение.
Когда использовать:
- Прогнозирование непрерывных (количественных) результатов
- Когда связь между признаками и результатом линейна
- Когда вам нужны интерпретируемые результаты
- Когда у вас есть простые или умеренно сложные данные
Плюсы:
- Легко понять и реализовать
- Быстрое обучение
- По коэффициентам уравнения линейной регрессии можно определить важность признаков
Минусы:
- Предполагает линейные взаимосвязи между исходом и ковариатами
- Может не справляться со сложными закономерностями
- Чувствительна к выбросам
- Может иметь проблемы с мультиколлинеарностью
Линейная регрессия - статистический метод прогнозирования значения постоянной зависимой количественной переменной на основе одной или нескольких независимых переменных. Он оценивает взаимосвязь с помощью линейного уравнения. Линейное уравнение - прямая линия, которая моделирует связь между зависимой и независимой переменными, показывая, как изменения входящих характеристик влияют на целевое значение.
Когда использовать:
- Прогнозирование непрерывных (количественных) результатов
- Когда связь между признаками и результатом линейна
- Когда вам нужны интерпретируемые результаты
- Когда у вас есть простые или умеренно сложные данные
Плюсы:
- Легко понять и реализовать
- Быстрое обучение
- По коэффициентам уравнения линейной регрессии можно определить важность признаков
Минусы:
- Предполагает линейные взаимосвязи между исходом и ковариатами
- Может не справляться со сложными закономерностями
- Чувствительна к выбросам
- Может иметь проблемы с мультиколлинеарностью
🔥2
Еще раз, важно помнить, что корреляция не означает причинно-следственную связь. Если две переменные коррелируют между собой, это не значит, что одна из них является причиной другой. Корреляция просто указывает на связь, но для установления причинно-следственной связи необходимы дополнительные доказательства. На них не следует полагаться при составлении прогнозов или формулировании окончательных выводов. При интерпретации корреляций необходимо учитывать: контекст, характер переменных, потенциальные факторы, сбивающие с толку, чтобы избежать ошибочных выводов. Корреляции могут быть рассчитаны с помощью различных методов, таких как: корреляция Пирсона, корреляция Спирмена и Кендалла.
🔥6
Про фиктивные (dummy) переменные
Фиктивные переменные - бинарные (0/1) переменные, которые используются для представления категориальных данных в регрессионном анализе и других статистических моделях.
Например, у нас есть 4 стадии заболевания и наша переменная "стадия" имеет 4 категории (k): стадия 1, стадия 2, стадия 3 и стадия 4. Для переменной с k категориями создается k-1 фиктивных переменных, чтобы избежать проблемы мультиколлинеарности. Значение каждой фиктивной переменной показывает разницу в эффекте по сравнению с базовой категорией. В нашем примере, если за базовую категорию принять стадию 1, то вместо переменной "стадия" новыми dummy переменными станут "стадия 2 (1/0)", "стадия 3(1/0)" и "стадия 4(1/0)" (3 новых столбика вместо 1). Фиктивные переменные взаимоисключают друг друга. Если значения всех фиктивных переменных у одного наблюдения (пациента) равны 0, то это означает, что пациент принадлежит к базовой категории, в нашем примере это "стадия 1". В противном случае, одна из фиктивных переменных принимает значение 1, остальные - 0.
Выбор базовой категории при создании фиктивных переменных действительно важен и может существенно повлиять на интерпретацию результатов. Вот несколько рекомендаций по выбору базовой категории в медицинских исследованиях:
✅ Контрольная группа. Если в исследовании есть контрольная группа (например, пациенты, получающие плацебо или стандартное лечение), логично выбрать ее в качестве базовой категории. Это позволит легко интерпретировать эффекты других групп относительно контроля.
✅ Наиболее распространенная категория. Выбор наиболее часто встречающейся категории в качестве базовой может улучшить статистическую мощность и стабильность оценок.
✅ Наименьший риск. В исследованиях, связанных с оценкой риска, можно выбрать категорию с наименьшим ожидаемым риском в качестве базовой. Это позволит интерпретировать коэффициенты как увеличение риска относительно базового уровня.
✅ Естественное "нулевое" состояние. Например, при оценке влияния курения можно выбрать "некурящих" в качестве базовой категории.
✅ Клиническая значимость. Выбирайте категорию, которая имеет наибольший клинический смысл в контексте вашего исследования.
✅ Традиция. Если в вашей области есть устоявшаяся практика выбора определенной категории в качестве базовой, следование ей облегчит сравнение результатов с другими исследованиями.
✅ Избегайте крайних значений. Старайтесь не выбирать слишком редкие или экстремальные категории в качестве базовых, так как это может привести к нестабильным оценкам.
✅ Учет пропущенных данных. Если в одной из категорий много пропущенных значений, возможно, стоит выбрать ее в качестве базовой, чтобы минимизировать влияние этих пропусков на анализ.
Важно помнить, что выбор базовой категории не влияет на общую пригодность модели, но может существенно повлиять на интерпретацию коэффициентов модели. Поэтому рекомендуется обосновать свой выбор в методологии исследования и учитывать его при интерпретации результатов.
Фиктивные переменные - бинарные (0/1) переменные, которые используются для представления категориальных данных в регрессионном анализе и других статистических моделях.
Например, у нас есть 4 стадии заболевания и наша переменная "стадия" имеет 4 категории (k): стадия 1, стадия 2, стадия 3 и стадия 4. Для переменной с k категориями создается k-1 фиктивных переменных, чтобы избежать проблемы мультиколлинеарности. Значение каждой фиктивной переменной показывает разницу в эффекте по сравнению с базовой категорией. В нашем примере, если за базовую категорию принять стадию 1, то вместо переменной "стадия" новыми dummy переменными станут "стадия 2 (1/0)", "стадия 3(1/0)" и "стадия 4(1/0)" (3 новых столбика вместо 1). Фиктивные переменные взаимоисключают друг друга. Если значения всех фиктивных переменных у одного наблюдения (пациента) равны 0, то это означает, что пациент принадлежит к базовой категории, в нашем примере это "стадия 1". В противном случае, одна из фиктивных переменных принимает значение 1, остальные - 0.
Выбор базовой категории при создании фиктивных переменных действительно важен и может существенно повлиять на интерпретацию результатов. Вот несколько рекомендаций по выбору базовой категории в медицинских исследованиях:
✅ Контрольная группа. Если в исследовании есть контрольная группа (например, пациенты, получающие плацебо или стандартное лечение), логично выбрать ее в качестве базовой категории. Это позволит легко интерпретировать эффекты других групп относительно контроля.
✅ Наиболее распространенная категория. Выбор наиболее часто встречающейся категории в качестве базовой может улучшить статистическую мощность и стабильность оценок.
✅ Наименьший риск. В исследованиях, связанных с оценкой риска, можно выбрать категорию с наименьшим ожидаемым риском в качестве базовой. Это позволит интерпретировать коэффициенты как увеличение риска относительно базового уровня.
✅ Естественное "нулевое" состояние. Например, при оценке влияния курения можно выбрать "некурящих" в качестве базовой категории.
✅ Клиническая значимость. Выбирайте категорию, которая имеет наибольший клинический смысл в контексте вашего исследования.
✅ Традиция. Если в вашей области есть устоявшаяся практика выбора определенной категории в качестве базовой, следование ей облегчит сравнение результатов с другими исследованиями.
✅ Избегайте крайних значений. Старайтесь не выбирать слишком редкие или экстремальные категории в качестве базовых, так как это может привести к нестабильным оценкам.
✅ Учет пропущенных данных. Если в одной из категорий много пропущенных значений, возможно, стоит выбрать ее в качестве базовой, чтобы минимизировать влияние этих пропусков на анализ.
Важно помнить, что выбор базовой категории не влияет на общую пригодность модели, но может существенно повлиять на интерпретацию коэффициентов модели. Поэтому рекомендуется обосновать свой выбор в методологии исследования и учитывать его при интерпретации результатов.
Про разведочный (эксплораторный) анализ данных
Эксплораторный анализ данных (EDA) - процесс исследования данных с целью выявления закономерностей, аномалий, взаимосвязей или тенденций с помощью статистических и визуальных методов. Это необходимо для понимания базовой структуры и характеристик данных, прежде чем применять более формальные статистические методы или методы машинного обучения.
EDA должен всегда выполняться на самом первом этапе статистического анализа и может включать в себя:
✅ Оценка типов данных (числовые, категориальные, порядковые) для их правильной обработки при последующем анализе.
✅ Оценка качества данных для выявления ошибок и несоответствий, которые могут потребовать исправления.
✅ Оценка распределения данных (например, нормальное, асимметричное распределение) с помощью гистограмм, графиков и сводных статистик помогает интуитивно понять общую тенденцию, изменчивость и сложные взаимосвязи в данных.
✅ Оценка пропущенных значений: выявление и устранение недостающих данных крайне важно, поскольку это может существенно повлиять на результаты анализа. Методы включают в себя импутацию (вменение), удаление отсутствующих данных, а также понимание причин их отсутствия.
✅ Оценка выбросов: обнаружение и изучение выбросов, чтобы понять их влияние на набор данных и решить, как с ними справиться (например, удалить, преобразовать).
✅ Анализ корреляций между переменными с помощью коэффициентов корреляции и диаграмм рассеяния для выявления взаимосвязей и потенциальных зависимостей.
✅ Оценка закономерностей, тенденций или аномалий в данных, которые могут быть визуализированы с помощью линейных графиков, гистограмм или анализа временных рядов.
✅ Сравнение показателей в разных группах для выявления существенных различий или сходств.
Эксплораторный анализ данных (EDA) - процесс исследования данных с целью выявления закономерностей, аномалий, взаимосвязей или тенденций с помощью статистических и визуальных методов. Это необходимо для понимания базовой структуры и характеристик данных, прежде чем применять более формальные статистические методы или методы машинного обучения.
EDA должен всегда выполняться на самом первом этапе статистического анализа и может включать в себя:
✅ Оценка типов данных (числовые, категориальные, порядковые) для их правильной обработки при последующем анализе.
✅ Оценка качества данных для выявления ошибок и несоответствий, которые могут потребовать исправления.
✅ Оценка распределения данных (например, нормальное, асимметричное распределение) с помощью гистограмм, графиков и сводных статистик помогает интуитивно понять общую тенденцию, изменчивость и сложные взаимосвязи в данных.
✅ Оценка пропущенных значений: выявление и устранение недостающих данных крайне важно, поскольку это может существенно повлиять на результаты анализа. Методы включают в себя импутацию (вменение), удаление отсутствующих данных, а также понимание причин их отсутствия.
✅ Оценка выбросов: обнаружение и изучение выбросов, чтобы понять их влияние на набор данных и решить, как с ними справиться (например, удалить, преобразовать).
✅ Анализ корреляций между переменными с помощью коэффициентов корреляции и диаграмм рассеяния для выявления взаимосвязей и потенциальных зависимостей.
✅ Оценка закономерностей, тенденций или аномалий в данных, которые могут быть визуализированы с помощью линейных графиков, гистограмм или анализа временных рядов.
✅ Сравнение показателей в разных группах для выявления существенных различий или сходств.
🔥1