Про фундаментальную неопределенность
Почему ваша статистическая выборка никогда не будет полностью соответствовать генеральной совокупности, даже если вы собрали все имеющиеся в мире данные. Из-за фундаментальной неопределенности. Вы можете собрать все наблюдения изучаемого вами явления, но у вас не будет тех наблюдений, которые не произошли или не произойдут в будущем.
Фундаментальная неопределенность - тип неопределенности, которую нельзя устранить или уменьшить никакими известными средствами. Она возникает из-за фундаментальных ограничений нашего знания и понимания мира и часто связана с присущей определенным явлениям случайностью или непредсказуемостью.
Например, в квантовой механике принцип неопределенности Гейзенберга гласит, что принципиально невозможно одновременно знать с абсолютной точностью положение и импульс частицы. Это пример фундаментальной неопределенности, поскольку невозможно устранить или уменьшить эту неопределенность никакими известными средствами.
Другие примеры фундаментальной неопределенности включают непредсказуемость результата подбрасывания монеты, непредсказуемость точной траектории урагана и непредсказуемость точного времени землетрясения. Эти явления случайны и не могут быть предсказаны с абсолютной уверенностью в силу фундаментальной ограниченности понимания и предсказания природы вещей.
Поэтому в статистике не может быть ничего абсолютно точного, всегда используйте интервалы неопределенности.
Почему ваша статистическая выборка никогда не будет полностью соответствовать генеральной совокупности, даже если вы собрали все имеющиеся в мире данные. Из-за фундаментальной неопределенности. Вы можете собрать все наблюдения изучаемого вами явления, но у вас не будет тех наблюдений, которые не произошли или не произойдут в будущем.
Фундаментальная неопределенность - тип неопределенности, которую нельзя устранить или уменьшить никакими известными средствами. Она возникает из-за фундаментальных ограничений нашего знания и понимания мира и часто связана с присущей определенным явлениям случайностью или непредсказуемостью.
Например, в квантовой механике принцип неопределенности Гейзенберга гласит, что принципиально невозможно одновременно знать с абсолютной точностью положение и импульс частицы. Это пример фундаментальной неопределенности, поскольку невозможно устранить или уменьшить эту неопределенность никакими известными средствами.
Другие примеры фундаментальной неопределенности включают непредсказуемость результата подбрасывания монеты, непредсказуемость точной траектории урагана и непредсказуемость точного времени землетрясения. Эти явления случайны и не могут быть предсказаны с абсолютной уверенностью в силу фундаментальной ограниченности понимания и предсказания природы вещей.
Поэтому в статистике не может быть ничего абсолютно точного, всегда используйте интервалы неопределенности.
👍2
Что может, а что не может категоризация
Категоризация (введение порога любым из методов) дает интерпретируемые оценки, такие как отношение шансов или рисков. Например, предположим, что вычисляется отношение шансов инсульта для лиц с систолическим артериальным давлением >160 мм рт. ст. по сравнению с лицами с артериальным давлением <= 160 мм рт.ст. В данном случае 160 - это порог. Интерпретация полученного отношения шансов будет зависеть от точного распределения артериального давления в выборке (доля субъектов >170, >180 и т.д.). Ведь если ошибиться с измерением, пациент может запросто попасть из одной группы в другую. Истинный риск инсульта у пациента с АД 161 мм.рт.ст. будет не сильно выше, чем у пациента с АД=159, однако ОШ может быть очень высоким, так как больные будут находиться в разных группах. С другой стороны пациент с АД 200 мм рт.ст. будет иметь намного более высокий риск инсульта, чем больной с АД=161, но при категоризации они будут находиться в одной группе риска. Введение порога отрывает нас от истинной картины мира. Когда оценивается риск инсульта у нового пациента с известным АД (скажем, 162), пациент не сообщает своему врачу «мое АД превышает 160», он скорее скажет о конкретном значении 162 мм рт.ст. Поэтому АД должно моделироваться (не обязательно линейно) как непрерывная переменная. Это позволит не только посчитать персональный риск от 0 до 1 для каждого пациента, но и оценить отношение шансов для точных настроек предиктора, например, отношение шансов для пациента с АД 200 мм рт.ст. по сравнению с АД 120 мм рт. Создание порогов (дихотомия данных) - частое и пагубное явление в анализе данных, которое называется дихотоманией.
Категоризация (введение порога любым из методов) дает интерпретируемые оценки, такие как отношение шансов или рисков. Например, предположим, что вычисляется отношение шансов инсульта для лиц с систолическим артериальным давлением >160 мм рт. ст. по сравнению с лицами с артериальным давлением <= 160 мм рт.ст. В данном случае 160 - это порог. Интерпретация полученного отношения шансов будет зависеть от точного распределения артериального давления в выборке (доля субъектов >170, >180 и т.д.). Ведь если ошибиться с измерением, пациент может запросто попасть из одной группы в другую. Истинный риск инсульта у пациента с АД 161 мм.рт.ст. будет не сильно выше, чем у пациента с АД=159, однако ОШ может быть очень высоким, так как больные будут находиться в разных группах. С другой стороны пациент с АД 200 мм рт.ст. будет иметь намного более высокий риск инсульта, чем больной с АД=161, но при категоризации они будут находиться в одной группе риска. Введение порога отрывает нас от истинной картины мира. Когда оценивается риск инсульта у нового пациента с известным АД (скажем, 162), пациент не сообщает своему врачу «мое АД превышает 160», он скорее скажет о конкретном значении 162 мм рт.ст. Поэтому АД должно моделироваться (не обязательно линейно) как непрерывная переменная. Это позволит не только посчитать персональный риск от 0 до 1 для каждого пациента, но и оценить отношение шансов для точных настроек предиктора, например, отношение шансов для пациента с АД 200 мм рт.ст. по сравнению с АД 120 мм рт. Создание порогов (дихотомия данных) - частое и пагубное явление в анализе данных, которое называется дихотоманией.
👍2
#глоссарий
Правило Байеса: вероятность того, что событие A произойдет при случившемся событии B, равна вероятности события B при случившемся событии A, умноженная на (безусловную) вероятность события A, деленное на (безусловную) вероятность события B.
Правило Байеса: вероятность того, что событие A произойдет при случившемся событии B, равна вероятности события B при случившемся событии A, умноженная на (безусловную) вероятность события A, деленное на (безусловную) вероятность события B.
#глоссарий
Байесовская модель - статистическая модель, основанная на байесовском подходе к вероятности ☝, который представляет собой интерпретацию вероятности, основанную на степени веры в событие. В байесовской модели вероятность интерпретируется как мера силы доказательств или веры в событие, а не как частота события, а статистический вывод основан на идее обновления наших предварительных убеждений о событии или новых доказательств или данных. Это делается с помощью теоремы Байеса, которая представляет собой математическую формулу, описывающую, как обновить вероятность события на основе новых данных.
Байесовские модели широко используются в различных областях, включая статистику и машинное обучение. Они особенно полезны в ситуациях, когда трудно получить большой объем данных или когда основной процесс генерирования данных сложен и неопределенен. Байесовские модели позволяют учитывать предварительные знания и субъективные убеждения о событии или параметре, что может быть полезно для создания более точных прогнозов или выводов.
Байесовская модель - статистическая модель, основанная на байесовском подходе к вероятности ☝, который представляет собой интерпретацию вероятности, основанную на степени веры в событие. В байесовской модели вероятность интерпретируется как мера силы доказательств или веры в событие, а не как частота события, а статистический вывод основан на идее обновления наших предварительных убеждений о событии или новых доказательств или данных. Это делается с помощью теоремы Байеса, которая представляет собой математическую формулу, описывающую, как обновить вероятность события на основе новых данных.
Байесовские модели широко используются в различных областях, включая статистику и машинное обучение. Они особенно полезны в ситуациях, когда трудно получить большой объем данных или когда основной процесс генерирования данных сложен и неопределенен. Байесовские модели позволяют учитывать предварительные знания и субъективные убеждения о событии или параметре, что может быть полезно для создания более точных прогнозов или выводов.
#глоссарий
Аппроксимация (от лат. proxima — ближайшая) или приближение - метод упрощения или замены одних данных другими, близкими к исходным, часто более простыми.
Разные примеры аппроксимации:
1. Средняя вариационного ряда (грубая характеристика всего распределения)
2. Постоянная e = 3 - √ (5/63) = 2.71828...
3. Золотое сечение = (1 + √ 5)/2 = 1.618...
4. Кубический сплайн количественной переменной в регрессионной модели, которая не имеет линейной взаимосвязи с исходом в уравнении регрессии (помните, что часто ковариаты не имеют линейной взаимосвязи с исходом или логитом вероятности исхода).
Пример нелинейной взаимосвязи: низкая температура тела (<36) также плохо, как и высокая температура (>38). И то и то - критерии сепсиса по критериям SIRS, что ассоцируется с плохим прогнозом. В то время как температура 36-38 будет минимально влиять на неблагоприятный исход. В подобных случаях при построении регрессионной модели необходимо аппроксимировать количественную ковариату перед включением в модель.
Аппроксимация (от лат. proxima — ближайшая) или приближение - метод упрощения или замены одних данных другими, близкими к исходным, часто более простыми.
Разные примеры аппроксимации:
1. Средняя вариационного ряда (грубая характеристика всего распределения)
2. Постоянная e = 3 - √ (5/63) = 2.71828...
3. Золотое сечение = (1 + √ 5)/2 = 1.618...
4. Кубический сплайн количественной переменной в регрессионной модели, которая не имеет линейной взаимосвязи с исходом в уравнении регрессии (помните, что часто ковариаты не имеют линейной взаимосвязи с исходом или логитом вероятности исхода).
Пример нелинейной взаимосвязи: низкая температура тела (<36) также плохо, как и высокая температура (>38). И то и то - критерии сепсиса по критериям SIRS, что ассоцируется с плохим прогнозом. В то время как температура 36-38 будет минимально влиять на неблагоприятный исход. В подобных случаях при построении регрессионной модели необходимо аппроксимировать количественную ковариату перед включением в модель.
👍1
Про метод Монте-Карло
Какую информацию может дать всего одна диаграмма, опубликованная в статье? На самом деле намного больше, чем вы можете подумать ...
https://telegra.ph/Analiz-ehffektivnosti-terapii-metodom-Monte-Karlo-12-17
Какую информацию может дать всего одна диаграмма, опубликованная в статье? На самом деле намного больше, чем вы можете подумать ...
https://telegra.ph/Analiz-ehffektivnosti-terapii-metodom-Monte-Karlo-12-17
Telegraph
Про метод Монте-Карло на одном примере
На картинке выше представлены результаты исследования по лечению больных миелодиспластическим синдромом (МДС) высокого риска с применением 15-дневного курса терапии по схеме азацитидин+венетоклакс. Этой картинки достаточно, чтобы сделать симуляционную модель…
Про корреляцию
Корреляция - один из методов для решения задачи определения взаимосвязи между переменными, при которой изменения значений одной или нескольких значений одной переменной сопутствуют систематическому изменению значений другой или других величин.
Для чего подходит:
✅ Проверка гипотезы о наличии взаимосвязи между двумя переменными (взаимном изменении значений переменных)
✅ Определение силы и направления линейной взаимосвязи между переменными (от -1 до +1)
✅ Определение статистической значимости взаимосвязи между двумя переменными
✅ Анализ мультиколлинеарности перед регрессионным анализом
Для чего не подходит:
❌ Определение причино-следственной связи между переменными (корреляция может быть из-за причинно-следственной связи между переменными, так и из-за наличия единой причины, влияющей на обе переменные сразу)
❌ Прогнозирование (требуется регрессионный анализ)
Корреляция - один из методов для решения задачи определения взаимосвязи между переменными, при которой изменения значений одной или нескольких значений одной переменной сопутствуют систематическому изменению значений другой или других величин.
Для чего подходит:
✅ Проверка гипотезы о наличии взаимосвязи между двумя переменными (взаимном изменении значений переменных)
✅ Определение силы и направления линейной взаимосвязи между переменными (от -1 до +1)
✅ Определение статистической значимости взаимосвязи между двумя переменными
✅ Анализ мультиколлинеарности перед регрессионным анализом
Для чего не подходит:
❌ Определение причино-следственной связи между переменными (корреляция может быть из-за причинно-следственной связи между переменными, так и из-за наличия единой причины, влияющей на обе переменные сразу)
❌ Прогнозирование (требуется регрессионный анализ)
👍1
Про размер выборки при создании модели регрессии
Если вы забили на расчет размера выборки при создании модели логистической регрессии, то такие научные работы обычно даже не рассматриваются в приличных журналах. Правилом хорошего тона считается описать метод расчета размера выборки, который вы использовали. Минимальный размер выборки можно рассчитать с помощью различных эмпирических подходов (пишите в комментариях, если нужно про них написать подробно) и некоторыми современными более сложными способами. Но самое главное, о чем вам обычно никто и никогда не рассказывает (потому что сам не знает), что минимальный размер выборки нужен только как условие применение статистического метода, например, логистической регрессии. Но на этом создание модели не заканчивается! Вам еще нужна внутренняя и внешняя валидация, а также проверка модели на стабильность.
Классический подход внутренней валидации, который обычно рекомендуют - разбить выборку на тренировочную и тестовую, например в соотношении 80/20. Но так вы еще больше теряете данных! Кроме того, такой подход уместен, если у вас 20 тысяч наблюдений (порядок этой цифры доказан в ряде экспериментов). Другими словами вашего минимального размера выборки никак не хватит. Выход - строгая внутрення валидация через бутсрэппинг или синтез искусственных данных (пишите, если интересно). Для расчета размера выборки для внешней валидации можно применять теже методы минимального размера выборки для модели регрессии. А вот создание стабильной модели (отдельная тема, что это такое) даже эмпирически требует "тысяч" данных, которых как правило нет. Именно поэтому более 95% публикующихся моделей в научной литературе не пригодны для использования в реальной практике. Они просто плохие. Если у вас нет "тысяч" данных вам нужно либо их собрать, либо искусственно синтезировать (повысить мощность ваших данных - не идеально, но лучше, чем ничего), либо отказаться от задачи создания модели прогноза и не попадать в число "мусорных" публикаций. С методами машинного обучения тоже не все так просто ...
Это не означает, что не следует заниматься прогнозированием. Можно ограничиться многофакторным анализом для поиска предикторов интересующего вас явления, но не строить модели прогноза персонального риска.
Если вы забили на расчет размера выборки при создании модели логистической регрессии, то такие научные работы обычно даже не рассматриваются в приличных журналах. Правилом хорошего тона считается описать метод расчета размера выборки, который вы использовали. Минимальный размер выборки можно рассчитать с помощью различных эмпирических подходов (пишите в комментариях, если нужно про них написать подробно) и некоторыми современными более сложными способами. Но самое главное, о чем вам обычно никто и никогда не рассказывает (потому что сам не знает), что минимальный размер выборки нужен только как условие применение статистического метода, например, логистической регрессии. Но на этом создание модели не заканчивается! Вам еще нужна внутренняя и внешняя валидация, а также проверка модели на стабильность.
Классический подход внутренней валидации, который обычно рекомендуют - разбить выборку на тренировочную и тестовую, например в соотношении 80/20. Но так вы еще больше теряете данных! Кроме того, такой подход уместен, если у вас 20 тысяч наблюдений (порядок этой цифры доказан в ряде экспериментов). Другими словами вашего минимального размера выборки никак не хватит. Выход - строгая внутрення валидация через бутсрэппинг или синтез искусственных данных (пишите, если интересно). Для расчета размера выборки для внешней валидации можно применять теже методы минимального размера выборки для модели регрессии. А вот создание стабильной модели (отдельная тема, что это такое) даже эмпирически требует "тысяч" данных, которых как правило нет. Именно поэтому более 95% публикующихся моделей в научной литературе не пригодны для использования в реальной практике. Они просто плохие. Если у вас нет "тысяч" данных вам нужно либо их собрать, либо искусственно синтезировать (повысить мощность ваших данных - не идеально, но лучше, чем ничего), либо отказаться от задачи создания модели прогноза и не попадать в число "мусорных" публикаций. С методами машинного обучения тоже не все так просто ...
Это не означает, что не следует заниматься прогнозированием. Можно ограничиться многофакторным анализом для поиска предикторов интересующего вас явления, но не строить модели прогноза персонального риска.
7 "смертных" грехов в статистике
❌ Подгонка данных с целью получения p-уровня значимости менее 0.05
❌ Применение ROC-анализа для дихотомии количественной переменной перед логистической регрессией
❌ Игнорирование допущений к статистическим тестам, включая размер выборки
❌ Создание прогностической модели без валидации
❌ Использование корреляции для доказательства причинно-следственной связи
❌ Перенос результатов анализа своей выборки на генеральную совокупность без доверительных интервалов
❌ Приравнивание статистической значимости к клинической значимости
❌ Подгонка данных с целью получения p-уровня значимости менее 0.05
❌ Применение ROC-анализа для дихотомии количественной переменной перед логистической регрессией
❌ Игнорирование допущений к статистическим тестам, включая размер выборки
❌ Создание прогностической модели без валидации
❌ Использование корреляции для доказательства причинно-следственной связи
❌ Перенос результатов анализа своей выборки на генеральную совокупность без доверительных интервалов
❌ Приравнивание статистической значимости к клинической значимости
👍2
😏 Пришел как-то исследователь к статистику...
https://telegra.ph/Razgovor-issledovatelya-i-statistika-03-13
https://telegra.ph/Razgovor-issledovatelya-i-statistika-03-13
Telegraph
Разговор исследователя и статистика
Исследователь: Я провожу научную работу и мне нужно знать сколько пациентов необходимо включить в выборку? Я думаю, мне нужно только 3 пациента. Статистик: Ок. Какая цель работы? Исследователь: У меня лабораторное исследование. Могу я использовать только…
😁3
Про природу выбросов (Outliers) в данных и что с ними делать
Выбросы можно разделить на 2 группы:
✅ Фактические выбросы — значения, которые крайне нереальны или даже невозможны (физически, химически, биологически). Обычно достаточно взглянуть на экстремальные значения, чтобы убедиться в этом. Например, у человека не может быть температуры тела 60 градусов.
✅ Статистические выбросы — значения, которые просто далеки от ожидаемого значения. Например, такие значения, которые выходят за пределы 1.5 межквартильного размаха или за 3 стандартных отклонения.Вопрос удаления выбросов из данных - дискутабельный, так как удаление выброса, как правило, связано с удалением целого наблюдения. Удалять наблюдение, когда у вас мало данных, жалко и нерационально. Если статистические выбросы еще можно оставить, если они не нарушают допущения к применяемым методам статистического анализа, то фактические по определению требуют коррекции.
Варианты, как поступать с выбросами:
1. Не удалять выброс (если это статистический выброс, который не мешает анализу)
2. Удалить выброс и всё наблюдение вместе с ним (радикально, но нерационально)
3. Удалить выброс и оставить значение пустым (если пропущенное значение не будет мешать анализу)
4. Удалить выброс и выполнить вменение данных, заменив пустое значение искусственным.
Выбросы можно разделить на 2 группы:
✅ Фактические выбросы — значения, которые крайне нереальны или даже невозможны (физически, химически, биологически). Обычно достаточно взглянуть на экстремальные значения, чтобы убедиться в этом. Например, у человека не может быть температуры тела 60 градусов.
✅ Статистические выбросы — значения, которые просто далеки от ожидаемого значения. Например, такие значения, которые выходят за пределы 1.5 межквартильного размаха или за 3 стандартных отклонения.Вопрос удаления выбросов из данных - дискутабельный, так как удаление выброса, как правило, связано с удалением целого наблюдения. Удалять наблюдение, когда у вас мало данных, жалко и нерационально. Если статистические выбросы еще можно оставить, если они не нарушают допущения к применяемым методам статистического анализа, то фактические по определению требуют коррекции.
Варианты, как поступать с выбросами:
1. Не удалять выброс (если это статистический выброс, который не мешает анализу)
2. Удалить выброс и всё наблюдение вместе с ним (радикально, но нерационально)
3. Удалить выброс и оставить значение пустым (если пропущенное значение не будет мешать анализу)
4. Удалить выброс и выполнить вменение данных, заменив пустое значение искусственным.
Цели статистического анализа:
Описание (Description): что мы видим?
Предсказание (Prediction): что мы ожидаем увидеть?
Причинность (Causation): что произойдет, если ...?
Задачи статистического анализа:
Распределение данных (Descriptive statistics)
Сравнение распределений данных (Comparison)
Взаимосвязь данных (корреляция, прогнозирование, классификация/кластеризация, причинно-следственный анализ)
Методы статистического анализа:
Частотная статистика (Frequentist statistics)
Байесовская статистика (Bayesian statistics)
Моделирование (Computational algorithms)
Машинное обучение (Machine learning)
Глубокое обучение (Deep learning)
Описание (Description): что мы видим?
Предсказание (Prediction): что мы ожидаем увидеть?
Причинность (Causation): что произойдет, если ...?
Задачи статистического анализа:
Распределение данных (Descriptive statistics)
Сравнение распределений данных (Comparison)
Взаимосвязь данных (корреляция, прогнозирование, классификация/кластеризация, причинно-следственный анализ)
Методы статистического анализа:
Частотная статистика (Frequentist statistics)
Байесовская статистика (Bayesian statistics)
Моделирование (Computational algorithms)
Машинное обучение (Machine learning)
Глубокое обучение (Deep learning)
✅ Показатель Z (Z-score) - мера того, на сколько стандартных отклонений значение переменной отличается от среднего значения всего вариационного ряда. Z = (X - M)/S, X - значение переменной, M - арифметическая средняя, S - стандартное отклонение.
Экстремальные значения Z>3 являются критерием выбросов.
Также Z-score можно использовать для нормализации данных - процесс преобразования данных для того, чтобы они попадали в небольшой заданный диапазон. Это может понадобиться, например, при подготовке данных к корреляционному или регрессионному анализу, если значения переменных отличаются друг от друга по единицам измерения и диапазону значений.
Экстремальные значения Z>3 являются критерием выбросов.
Также Z-score можно использовать для нормализации данных - процесс преобразования данных для того, чтобы они попадали в небольшой заданный диапазон. Это может понадобиться, например, при подготовке данных к корреляционному или регрессионному анализу, если значения переменных отличаются друг от друга по единицам измерения и диапазону значений.
Насколько хорошо вы разбираетесь в статистике (для понимания аудитории группы)?
Anonymous Poll
43%
Начальный уровень (описательная статистика / критерий Стьюдента / Хи2)
38%
Средний уровень (понимаю регрессионный анализ)
19%
Продвинутый уровень (готов читать про машинное обучение и другие сложные штуки)
Подробно про Hazard Ratio
Путаница в интерпретации Hazard Ratio связано с путаницей в понятиях Hazard (опасность) и риск (вероятность, Probability). Часто то и другое называют "риском", но у них есть существенные различия. Во избежании путаницы риски в Hazard Ratio будем называть "опасностями".
Отношение опасностей (отношение "рисков" или угроз, Hazard Ratio) – отношение опасностей (Hazards) исхода в двух группах пациентов, например, на разной терапии. Hazard Ratio показывает пропорцию между опасностью исхода для пациента в одной группе с опасностью исхода для пациента в другой группе в один и тот же следующий момент времени на протяжении всего горизонта наблюдения при условии, что пациенты еще не достигли данного исхода!
Теперь подробнее:
Опасность (Hazard) - гипотетический риск или вероятность возникновения события, например, прогрессирования заболевания или смерти. Другими словами опасность – мгновенная возможность того, что событие произойдет в следующий новый момент времени. Например, это риск смерти (прогрессии) пациента завтра, если сегодня этот пациент в жив (в ремиссии). Значения опасности меняются со временем. Например, опасность смерти у больного возрастает со временем. Опасность рассчитывается по наклону кривой выживания в определенной точке.
Hazard Ratio (HR) сравнивает опасности (Hazard) двух пациентов методом пропорции, то есть во сколько раз значение одного риска (Hazard1) больше или меньше другого (Hazard2). Другими словами, HR - относительный риск исхода (например, смерти) одного пациента по отношению к другому, отличающемуся от первого, завтра, при условии, что сегодня они оба живы. Hazard Ratio НЕ меняется со временем (инвариантен времени), что называется пропорциональностью рисков. Это главное условие для применения регрессионного анализа Кокса. Если пропорциональность рисков не соблюдается (например, при пересечении кривых выживаемости вначале или тем более несколько раз), результаты регрессии Кокса нельзя интерпретировать! Допущение пропорциональности рисков проверяется специальными статистическими тестами.
Зная HR вы не можете высчитать Hazard1 и Hazard2. HR = 1 означает, что две группы имеют одинаковую опасность. Их гипотететические риски исхода (смерти/прогрессии) эквивалентны. HR = 0.5 означает, что одна группа имеет на 50% более низкую гипотетическую опасность по сравнению с контрольной группой. HR = 2 означает, что одна группа имеет в 2 раза более высокую гипотетическую опасность по сравнению с контрольной группой. Риск прогрессирования в 2 раза выше.
Вероятность (Probability) - абсолютная процентная вероятность наступления события (прогрессия/смерть). Абсолютная вероятность выживания для любой из групп пациентов оценивается по кривой выживания путем проведения перпендикуляра от оси Х (время) на кривую выживаемости и далее на ось У (вероятность). Разница абсолютного риска высчитывается путем нахождения разницы между вероятностями выживания в конкретной временной точке.
Опасность и вероятность связаны, но не тождественны. Вы не можете напрямую вычислить одно из другого, основываясь только на HR. Опасность (Hazard) описывает мгновенный риск события в определенный момент времени. Вероятность описывает общий шанс наступления события в течение определенного периода времени. HR - относительное сравнение опасностей между двумя группами или относительное влияние экспериментального лечения на прогрессирование/выживаемость по сравнению с контрольным лечением. Это некий усредненный показатель постоянного риска исхода на протяжении всего периода наблюдения.
Теперь на примере:
В исследовании при сравнении результатов новой и старой терапии HR выживания без прогрессирования = 0.73. Это означает, что новое лечение снизило опасность прогрессирования на 27% по сравнению с контрольным лечением. Снизило опасность, не вероятность! Хотя опасность прямо коррелирует с вероятностью события, непосредственные показатели рисков в том и другом случае могут и, как правило, существенно отличаются. Например, в данном же исследовании вероятность прогрессирования через 2 года была ниже только на 6%, а не на
Путаница в интерпретации Hazard Ratio связано с путаницей в понятиях Hazard (опасность) и риск (вероятность, Probability). Часто то и другое называют "риском", но у них есть существенные различия. Во избежании путаницы риски в Hazard Ratio будем называть "опасностями".
Отношение опасностей (отношение "рисков" или угроз, Hazard Ratio) – отношение опасностей (Hazards) исхода в двух группах пациентов, например, на разной терапии. Hazard Ratio показывает пропорцию между опасностью исхода для пациента в одной группе с опасностью исхода для пациента в другой группе в один и тот же следующий момент времени на протяжении всего горизонта наблюдения при условии, что пациенты еще не достигли данного исхода!
Теперь подробнее:
Опасность (Hazard) - гипотетический риск или вероятность возникновения события, например, прогрессирования заболевания или смерти. Другими словами опасность – мгновенная возможность того, что событие произойдет в следующий новый момент времени. Например, это риск смерти (прогрессии) пациента завтра, если сегодня этот пациент в жив (в ремиссии). Значения опасности меняются со временем. Например, опасность смерти у больного возрастает со временем. Опасность рассчитывается по наклону кривой выживания в определенной точке.
Hazard Ratio (HR) сравнивает опасности (Hazard) двух пациентов методом пропорции, то есть во сколько раз значение одного риска (Hazard1) больше или меньше другого (Hazard2). Другими словами, HR - относительный риск исхода (например, смерти) одного пациента по отношению к другому, отличающемуся от первого, завтра, при условии, что сегодня они оба живы. Hazard Ratio НЕ меняется со временем (инвариантен времени), что называется пропорциональностью рисков. Это главное условие для применения регрессионного анализа Кокса. Если пропорциональность рисков не соблюдается (например, при пересечении кривых выживаемости вначале или тем более несколько раз), результаты регрессии Кокса нельзя интерпретировать! Допущение пропорциональности рисков проверяется специальными статистическими тестами.
Зная HR вы не можете высчитать Hazard1 и Hazard2. HR = 1 означает, что две группы имеют одинаковую опасность. Их гипотететические риски исхода (смерти/прогрессии) эквивалентны. HR = 0.5 означает, что одна группа имеет на 50% более низкую гипотетическую опасность по сравнению с контрольной группой. HR = 2 означает, что одна группа имеет в 2 раза более высокую гипотетическую опасность по сравнению с контрольной группой. Риск прогрессирования в 2 раза выше.
Вероятность (Probability) - абсолютная процентная вероятность наступления события (прогрессия/смерть). Абсолютная вероятность выживания для любой из групп пациентов оценивается по кривой выживания путем проведения перпендикуляра от оси Х (время) на кривую выживаемости и далее на ось У (вероятность). Разница абсолютного риска высчитывается путем нахождения разницы между вероятностями выживания в конкретной временной точке.
Опасность и вероятность связаны, но не тождественны. Вы не можете напрямую вычислить одно из другого, основываясь только на HR. Опасность (Hazard) описывает мгновенный риск события в определенный момент времени. Вероятность описывает общий шанс наступления события в течение определенного периода времени. HR - относительное сравнение опасностей между двумя группами или относительное влияние экспериментального лечения на прогрессирование/выживаемость по сравнению с контрольным лечением. Это некий усредненный показатель постоянного риска исхода на протяжении всего периода наблюдения.
Теперь на примере:
В исследовании при сравнении результатов новой и старой терапии HR выживания без прогрессирования = 0.73. Это означает, что новое лечение снизило опасность прогрессирования на 27% по сравнению с контрольным лечением. Снизило опасность, не вероятность! Хотя опасность прямо коррелирует с вероятностью события, непосредственные показатели рисков в том и другом случае могут и, как правило, существенно отличаются. Например, в данном же исследовании вероятность прогрессирования через 2 года была ниже только на 6%, а не на
👍3🔥2
27%!
Итак, если описывать результаты клинического исследования через риски и опасности, следует понимать:
1. Когда мы интерпретируем HR, мы имеем в виду снижение и повышение гипотетического риска наступления события в одной группе больных по отношению к другой. Всегда присуствуют 2 группы! Риск - не абсолютный (истинный), а гипотетический и усредненный для всего периода наблюдения! Отношение опасностей (HR) одинаково на всем протяжении исследования и не может быть привязано к конкретной временной точке!
2. Абсолютный риск (вероятность исхода) определяется по графику выживаемости для каждой группы больных в отдельности! Риск всегда привязан к конкретной временной точке. Разница абсолютных рисков различается на всем протяжении исследования. Абсолютный риск отражает истинную, а не гипотетическую, вероятность исхода в прямом понимании слова "вероятность" и является более приближенной к реальности мерой оценки исходов, чем HR. Поэтому всегда смотрите на графики выживаемости.
Итак, если описывать результаты клинического исследования через риски и опасности, следует понимать:
1. Когда мы интерпретируем HR, мы имеем в виду снижение и повышение гипотетического риска наступления события в одной группе больных по отношению к другой. Всегда присуствуют 2 группы! Риск - не абсолютный (истинный), а гипотетический и усредненный для всего периода наблюдения! Отношение опасностей (HR) одинаково на всем протяжении исследования и не может быть привязано к конкретной временной точке!
2. Абсолютный риск (вероятность исхода) определяется по графику выживаемости для каждой группы больных в отдельности! Риск всегда привязан к конкретной временной точке. Разница абсолютных рисков различается на всем протяжении исследования. Абсолютный риск отражает истинную, а не гипотетическую, вероятность исхода в прямом понимании слова "вероятность" и является более приближенной к реальности мерой оценки исходов, чем HR. Поэтому всегда смотрите на графики выживаемости.
👍5
🤔 Немного терминологии в медицинском прогнозировании
✅ Прогностический фактор или предиктор - переменная, которая помогает прогнозировать (расчитывать вероятность) изучаемого исхода в конкретной прогностической модели.
✅ Фактор риска - переменная, определенное значение которой оказывает отрицательное (как правило) или положительное (защитный фактор) влияние на исход в популяции.
✅ Ковариата - любая переменная, которая используется для создания модели.
Пример: мы создали прогностическую модель инсульта, в котрую включили значение артериального давления (АД). Тогда АД будет являться ковариатой и предиктором. В тоже время не любое значение АД будет фактором риска инсульта, а например, только то, что выше 140/90. Курение в модели прогнозирования инсульта изначально являлось ковариатой, но не попав в итоговую модель, не стало предиктором. Тем не менее в целом в популяции курение может быть фактором риска инсульта.
✅ Прогностический фактор или предиктор - переменная, которая помогает прогнозировать (расчитывать вероятность) изучаемого исхода в конкретной прогностической модели.
✅ Фактор риска - переменная, определенное значение которой оказывает отрицательное (как правило) или положительное (защитный фактор) влияние на исход в популяции.
✅ Ковариата - любая переменная, которая используется для создания модели.
Пример: мы создали прогностическую модель инсульта, в котрую включили значение артериального давления (АД). Тогда АД будет являться ковариатой и предиктором. В тоже время не любое значение АД будет фактором риска инсульта, а например, только то, что выше 140/90. Курение в модели прогнозирования инсульта изначально являлось ковариатой, но не попав в итоговую модель, не стало предиктором. Тем не менее в целом в популяции курение может быть фактором риска инсульта.
👍2
О допущениях (assumptions) к линейной регресии
Линейная регрессия применяется для описания взаимосвязи между зависимой количественной и независимыми переменными, а также для создания прогностических моделей.
Обязательные допущения метода:
✅ Линейная зависимость между независимой переменной X и зависимой переменной Y
✅ Гомоскедастичность: остатки (ошибки регрессии) должны иметь постоянную дисперсию при любых значениях признаков
✅ Независимость: нет корреляции между последовательными остатками (автокорреляции), наблюдения должны быть независимыми друг от друга - случайная выборка, данные репрезентативны для генеральной совокупности (отсутствие систематической ошибки при отборе предикторов)
Опциональные допущения метода:
✅ Остатки модели должны быть нормально распределены
✅ Строгая экзогенность — независимые переменные не коррелируют с ошибками
✅ Достаточный размер выборки
Линейная регрессия применяется для описания взаимосвязи между зависимой количественной и независимыми переменными, а также для создания прогностических моделей.
Обязательные допущения метода:
✅ Линейная зависимость между независимой переменной X и зависимой переменной Y
✅ Гомоскедастичность: остатки (ошибки регрессии) должны иметь постоянную дисперсию при любых значениях признаков
✅ Независимость: нет корреляции между последовательными остатками (автокорреляции), наблюдения должны быть независимыми друг от друга - случайная выборка, данные репрезентативны для генеральной совокупности (отсутствие систематической ошибки при отборе предикторов)
Опциональные допущения метода:
✅ Остатки модели должны быть нормально распределены
✅ Строгая экзогенность — независимые переменные не коррелируют с ошибками
✅ Достаточный размер выборки
👍2🔥1
Как проверить линейную зависимость:
✅ постройте график зависимости Y от X и визуально проверьте на нелинейность
✅ постройте квадратичную или кубическую модель регрессии и сравните с линейной моделью в тесте ANOVA. Если модель более высокого порядка окажется лучше, это будет свидетельствовать о нелинейности
✅ постройте LOWESS (Locally Weighted Scatterplot Smoothing) диаграмму и визуально проверьте на нелинейность
✅ вычислите корреляцию X и Y после преобразования X (возведение в квадрат, квадратный корень). Более высокая корреляция для преобразованного X предполагает нелинейную зависимость
✅ используйте метод частичной корреляции
Что делать, если линейная зависимость отсутствует:
✅ можно попробовать преобразовать X, взяв log, квадратный корень, квадрат, куб и т.д. Иногда простое преобразование может привести к линейной зависимости
✅ добавьте полиномиальные члены - добавьте квадратичные (x^2) или кубические (x^3) члены к вашей модели: Y ~ x + x^2
✅ добавьте условия взаимодействия между X и другими переменными, чтобы проверить, существует ли условная линейная связь: Y ~ x + z + x:z
✅ используйте другую нелинейную модель
✅ используйте сплайны
✅ используйте LOESS регрессию
✅ уберите из модели переменную X, которая нелинейно связана с Y
✅ используйте методы машинного обучения
✅ постройте график зависимости Y от X и визуально проверьте на нелинейность
✅ постройте квадратичную или кубическую модель регрессии и сравните с линейной моделью в тесте ANOVA. Если модель более высокого порядка окажется лучше, это будет свидетельствовать о нелинейности
✅ постройте LOWESS (Locally Weighted Scatterplot Smoothing) диаграмму и визуально проверьте на нелинейность
✅ вычислите корреляцию X и Y после преобразования X (возведение в квадрат, квадратный корень). Более высокая корреляция для преобразованного X предполагает нелинейную зависимость
✅ используйте метод частичной корреляции
Что делать, если линейная зависимость отсутствует:
✅ можно попробовать преобразовать X, взяв log, квадратный корень, квадрат, куб и т.д. Иногда простое преобразование может привести к линейной зависимости
✅ добавьте полиномиальные члены - добавьте квадратичные (x^2) или кубические (x^3) члены к вашей модели: Y ~ x + x^2
✅ добавьте условия взаимодействия между X и другими переменными, чтобы проверить, существует ли условная линейная связь: Y ~ x + z + x:z
✅ используйте другую нелинейную модель
✅ используйте сплайны
✅ используйте LOESS регрессию
✅ уберите из модели переменную X, которая нелинейно связана с Y
✅ используйте методы машинного обучения
👍2❤1