#базовыйуровень
Что нужно знать и понимать о кривой выживаемости
Когда вам говорят, например, что "у нас выживаемость пациентов 80%, а у вас?" и демонстрируют кривую выживаемости, вас могут "обманывать", часто не специально.
✅ Кривая выживаемости - вероятностная кривая, то есть правильнее говорить об актуриальной (ожидаемой) вероятности, а не об истинной. Посчитать истинную выживаемость возможно только при завершении всех наблюдений или за такой интервал, в котором не осталось цензурированных наблюдений.
✅ Формулировка "выживаемость n%" должна обязательно сопровождаться данными о временном интервале: 1-летняя, 5-летняя выживаемость или какая-то другая.
✅ Величина временного периода должна быть <= медианы периода наблюдения за пациентами, иначе результаты становятся слишком оптимистично завышенными.
✅ Если необходимо экстраполировать данные о выживаемости на популяцию (генеральную совокупность) и сравнить с аналогичными результатами из другого медицинского центра, хотя бы формально, необходимо указывать доверительный интервал выживаемости. Любая выборка - случайна и при повторном эксперименте получить точно такой же результат очень маловероятно. Поэтому всегда существует доверительный интервал или интервал неопределенности, величина которого обратно пропорциональна размеру выборки. Без доверительного интервала непрямое сравнение исследований невозможно.
✅ Медиана выживаемости, если она достигнута (график спустился до отметки 50% или ниже) отражает промежуток времени, в течение которого половина пациентов остаются живы НА МОМЕНТ проведения анализа. Со временем медиана, как и другие показатели выживаемости, могут меняться.
Что нужно знать и понимать о кривой выживаемости
Когда вам говорят, например, что "у нас выживаемость пациентов 80%, а у вас?" и демонстрируют кривую выживаемости, вас могут "обманывать", часто не специально.
✅ Кривая выживаемости - вероятностная кривая, то есть правильнее говорить об актуриальной (ожидаемой) вероятности, а не об истинной. Посчитать истинную выживаемость возможно только при завершении всех наблюдений или за такой интервал, в котором не осталось цензурированных наблюдений.
✅ Формулировка "выживаемость n%" должна обязательно сопровождаться данными о временном интервале: 1-летняя, 5-летняя выживаемость или какая-то другая.
✅ Величина временного периода должна быть <= медианы периода наблюдения за пациентами, иначе результаты становятся слишком оптимистично завышенными.
✅ Если необходимо экстраполировать данные о выживаемости на популяцию (генеральную совокупность) и сравнить с аналогичными результатами из другого медицинского центра, хотя бы формально, необходимо указывать доверительный интервал выживаемости. Любая выборка - случайна и при повторном эксперименте получить точно такой же результат очень маловероятно. Поэтому всегда существует доверительный интервал или интервал неопределенности, величина которого обратно пропорциональна размеру выборки. Без доверительного интервала непрямое сравнение исследований невозможно.
✅ Медиана выживаемости, если она достигнута (график спустился до отметки 50% или ниже) отражает промежуток времени, в течение которого половина пациентов остаются живы НА МОМЕНТ проведения анализа. Со временем медиана, как и другие показатели выживаемости, могут меняться.
Вы захотели оценить распространенность рака легких среди злостных курильщиков в вашем регионе, как это сделать?
Читать далее …
Читать далее …
В предыдущем посте сначала не подгрузились формулы, исправлено!
Про базовые понятия любого научного исследования
✅ Научная идея - неоформленная мысль (предположение, вопрос, замысел) в области той или иной научно-исследовательской проблемы или темы.
✅ Научная гипотеза - формализованное (оформленное) теоретическое утверждение о предполагаемой взаимосвязи или закономерности исследуемых явлений или событий, решение об истинности которого еще не принято.
✅ Научная теория - доказательство истинности научной гипотезы посредством теоретических и/или практических доказательств.
✅ Научный эксперимент - доказательство истинности научной гипотезы через анализ данных и/или практический опыт (наблюдение).
✅ Теоретические доказательство - математический и статистический анализ данных, выводы которого подтверждают научную гипотезу.
✅ Практическое доказательство - опыт или наблюдение, которые подтверждают научную гипотезу.
✅ Независимая переменная - переменная, которая изменяется или контролируется в научном эксперименте для проверки ее влияния на зависимую переменную.
✅ Зависимая переменная - переменная, которая тестируется и измеряется в научном эксперименте.
✅ Эффект – влияние независимой переменной на зависимую переменную.
✅ Фиксированный эффект - влияние независимой переменной, представляющей интерес для исследователя.
✅ Случайный эффект - влияние независимой переменной, не представляющей первостепенный интерес для исследователя (переменные, которые специально не учитываются).
✅ Взаимосвязь переменных (данных) - математическая модель или функция, описывающая эффекты влияния независимых переменных друг на друга или на зависимую переменную.
✅ Зависимость переменных - распределение переменных таким образом, что их значения согласованы друг с другом (влияют друг на друга) в имеющихся наблюдениях.
✅ Распределение переменных - закономерное распределение данных, позволяющая рассчитывать вероятность того, что переменная примет определенное заданное значение или значение из данного распределения.
Про базовые понятия любого научного исследования
✅ Научная идея - неоформленная мысль (предположение, вопрос, замысел) в области той или иной научно-исследовательской проблемы или темы.
✅ Научная гипотеза - формализованное (оформленное) теоретическое утверждение о предполагаемой взаимосвязи или закономерности исследуемых явлений или событий, решение об истинности которого еще не принято.
✅ Научная теория - доказательство истинности научной гипотезы посредством теоретических и/или практических доказательств.
✅ Научный эксперимент - доказательство истинности научной гипотезы через анализ данных и/или практический опыт (наблюдение).
✅ Теоретические доказательство - математический и статистический анализ данных, выводы которого подтверждают научную гипотезу.
✅ Практическое доказательство - опыт или наблюдение, которые подтверждают научную гипотезу.
✅ Независимая переменная - переменная, которая изменяется или контролируется в научном эксперименте для проверки ее влияния на зависимую переменную.
✅ Зависимая переменная - переменная, которая тестируется и измеряется в научном эксперименте.
✅ Эффект – влияние независимой переменной на зависимую переменную.
✅ Фиксированный эффект - влияние независимой переменной, представляющей интерес для исследователя.
✅ Случайный эффект - влияние независимой переменной, не представляющей первостепенный интерес для исследователя (переменные, которые специально не учитываются).
✅ Взаимосвязь переменных (данных) - математическая модель или функция, описывающая эффекты влияния независимых переменных друг на друга или на зависимую переменную.
✅ Зависимость переменных - распределение переменных таким образом, что их значения согласованы друг с другом (влияют друг на друга) в имеющихся наблюдениях.
✅ Распределение переменных - закономерное распределение данных, позволяющая рассчитывать вероятность того, что переменная примет определенное заданное значение или значение из данного распределения.
🔥1
Ваша переменная измерена в % (от 0 до 100), можно ли к ней применять статистику средних величин и дисперсионный анализ?
Нет!
Что делать? Один из вариантов - трансформировать переменную посредством вот такого уравнения: log(P/(100-P)), log - натуральный логарифм, P - значение переменной в %.
Это называется логит-преобразованием, которое применяется для пропорций и процентов. P не должно равняться 1 (100%), иначе возникнет деление на 0.
Давайте посмотрим на примере. В нашей выборке 549 пациентов, у которых подсчитано число лейкозных клеток в костном мозге: 25.6 (Q1-Q3: 13.2-29.7)%. На рисунке - гистограммы до (не очень нормальное распределение) и после логит-преобразования (вполне нормальное распределение).
Нет!
Что делать? Один из вариантов - трансформировать переменную посредством вот такого уравнения: log(P/(100-P)), log - натуральный логарифм, P - значение переменной в %.
Это называется логит-преобразованием, которое применяется для пропорций и процентов. P не должно равняться 1 (100%), иначе возникнет деление на 0.
Давайте посмотрим на примере. В нашей выборке 549 пациентов, у которых подсчитано число лейкозных клеток в костном мозге: 25.6 (Q1-Q3: 13.2-29.7)%. На рисунке - гистограммы до (не очень нормальное распределение) и после логит-преобразования (вполне нормальное распределение).
👍1
#среднийуровень
Про регрессионный анализ пропорциональных рисков Кокса
Позволяет найти взаимосвязь между зависимой time-to-event (временем до события) и независимыми переменными.
Применяется для:
📌 поиск предикторов (факторов прогноза) выживаемости или заболеваемости через отношение рисков
📌 создания прогностической модели
Допущения метода:
✅ Наблюдения должны быть независимыми друг от друга (разные пациенты, не связанные между собой)
✅ Ковариаты (предикторы) должны быть независимы друг от друга
✅ Допущение пропорциональности (влияние фактора риска постоянно во времени)!
✅ Желательно отсутствие экстремальных выбросов (наблюдения слишком ранней смерти или слишком долгой жизни)
✅ Линейность независимых переменных и логарифма опасностей
✅ Достаточный размер выборки
✅ Отсутствие мультиколинеарности
Риск выживания во времени h(t) = h0(t) * exp (b1X1 + … bnXn)
Вероятность выживания во времени P(t) = exp(-(h0(t)*exp (b1X1 + …bnXn)))
h0(t) – базовый риск (интерсепт)
b – коэффициент регрессии
X – значение предиктора
Про регрессионный анализ пропорциональных рисков Кокса
Позволяет найти взаимосвязь между зависимой time-to-event (временем до события) и независимыми переменными.
Применяется для:
📌 поиск предикторов (факторов прогноза) выживаемости или заболеваемости через отношение рисков
📌 создания прогностической модели
Допущения метода:
✅ Наблюдения должны быть независимыми друг от друга (разные пациенты, не связанные между собой)
✅ Ковариаты (предикторы) должны быть независимы друг от друга
✅ Допущение пропорциональности (влияние фактора риска постоянно во времени)!
✅ Желательно отсутствие экстремальных выбросов (наблюдения слишком ранней смерти или слишком долгой жизни)
✅ Линейность независимых переменных и логарифма опасностей
✅ Достаточный размер выборки
✅ Отсутствие мультиколинеарности
Риск выживания во времени h(t) = h0(t) * exp (b1X1 + … bnXn)
Вероятность выживания во времени P(t) = exp(-(h0(t)*exp (b1X1 + …bnXn)))
h0(t) – базовый риск (интерсепт)
b – коэффициент регрессии
X – значение предиктора
👍1🔥1
#среднийуровень
Интерпретируем отношение шансов (Odds Ratio) в моделях логистической регрессии
Коэффициент регрессии b для предиктора X превращается в ОШ путем возведения exp (2.718128...) в степень этого самого коэффициента b. Например, при b(X1) = 0.5, ОШ для ковариаты X1 = exp(0.5) = 1.64. Но интерпретация полученного значения ОШ будет зависеть от типа переменной X1. Разбираемся на примерах:
Пусть наше уравнение регрессии имеет вид: b0 + b1*X1 + b2*X2, тогда если:
✅ X1 (категориальная, ОШ = 1.6): шансы исхода выше в 1.6 раз при наличии предиктора X1
✅ X1 (количественная, ОШ = 1.06): шансы исхода выше на (1.06-1)*100 = 6% при увеличении X1 на 1ЕД (ЕД в которых измеряется X1); шансы исхода выше на (1.06^k-1)*100% при увеличении X1 на k ЕД
✅ X1 (категориальная, ОШ = 1.6) + X2 (категориальная, ОШ = 1.4): шансы исхода выше в 1.6*1.4 = 2.24 раза при наличии предикторов X1 и X2
✅ X1 (количественная, ОШ = 1.06) + X2 (количественная, ОШ = 1.04): шансы исхода выше на ((1.06+1.04)-1)*100% при при увеличении X1 на 1ЕД и Х2 на 1ЕД
✅ X1 (категориальная, ОШ = 1.6) + X2 (количественная, ОШ = 1.04): шансы исхода выше в 1.6*1.04 = 1.66 раза при наличии предиктора X1 и увеличении X2 на 1ЕД
⚠️ Иногда количественные ковариаты логарифмируют, тогда:
log (X1) и ОШ = 1.06: шансы исхода выше на 6% при увеличении X1*n, где n – основание логарифма. Например, log2(X1) и ОШ 1.06 интерпретируется как увеличение шансов исхода на 6% при увеличении X1 в 2 раза.
Интерпретируем отношение шансов (Odds Ratio) в моделях логистической регрессии
Коэффициент регрессии b для предиктора X превращается в ОШ путем возведения exp (2.718128...) в степень этого самого коэффициента b. Например, при b(X1) = 0.5, ОШ для ковариаты X1 = exp(0.5) = 1.64. Но интерпретация полученного значения ОШ будет зависеть от типа переменной X1. Разбираемся на примерах:
Пусть наше уравнение регрессии имеет вид: b0 + b1*X1 + b2*X2, тогда если:
✅ X1 (категориальная, ОШ = 1.6): шансы исхода выше в 1.6 раз при наличии предиктора X1
✅ X1 (количественная, ОШ = 1.06): шансы исхода выше на (1.06-1)*100 = 6% при увеличении X1 на 1ЕД (ЕД в которых измеряется X1); шансы исхода выше на (1.06^k-1)*100% при увеличении X1 на k ЕД
✅ X1 (категориальная, ОШ = 1.6) + X2 (категориальная, ОШ = 1.4): шансы исхода выше в 1.6*1.4 = 2.24 раза при наличии предикторов X1 и X2
✅ X1 (количественная, ОШ = 1.06) + X2 (количественная, ОШ = 1.04): шансы исхода выше на ((1.06+1.04)-1)*100% при при увеличении X1 на 1ЕД и Х2 на 1ЕД
✅ X1 (категориальная, ОШ = 1.6) + X2 (количественная, ОШ = 1.04): шансы исхода выше в 1.6*1.04 = 1.66 раза при наличии предиктора X1 и увеличении X2 на 1ЕД
⚠️ Иногда количественные ковариаты логарифмируют, тогда:
log (X1) и ОШ = 1.06: шансы исхода выше на 6% при увеличении X1*n, где n – основание логарифма. Например, log2(X1) и ОШ 1.06 интерпретируется как увеличение шансов исхода на 6% при увеличении X1 в 2 раза.
👍3
Формула среднего процента
Средний процент - определение среднего значения двух или более процентов от целого.
💁♂️ Формула: [(процент 1 + процент 2 + процент n) / (выборка 1 + выборка 2 + выборка n)] * 100%
Если размеры выборок совпадают, то средний процент равен простому среднему от всех процентов. Например, у нас 3 выборки по 100 пациентов. Из них ответили на лечение 40, 60, 80% пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение можно рассчитать по упрощенной формуле (40%+60%+80%) / 3 = 60%.
⚠ Но если размеры выборок не совпадают, тогда используется универсальная формула выше ☝. Например, у нас 3 выборки по 100, 150 и 200 пациентов. Из них ответили на лечение 40% (n=40), 60% (n=90), 80% (n=160) пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение равен (40+90+160)/(100+150+200) * 100 = 64.4%
Средний процент - определение среднего значения двух или более процентов от целого.
💁♂️ Формула: [(процент 1 + процент 2 + процент n) / (выборка 1 + выборка 2 + выборка n)] * 100%
Если размеры выборок совпадают, то средний процент равен простому среднему от всех процентов. Например, у нас 3 выборки по 100 пациентов. Из них ответили на лечение 40, 60, 80% пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение можно рассчитать по упрощенной формуле (40%+60%+80%) / 3 = 60%.
⚠ Но если размеры выборок не совпадают, тогда используется универсальная формула выше ☝. Например, у нас 3 выборки по 100, 150 и 200 пациентов. Из них ответили на лечение 40% (n=40), 60% (n=90), 80% (n=160) пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение равен (40+90+160)/(100+150+200) * 100 = 64.4%
Новая рубрика. Полезные формулы в #excel
Разность дат в днях, месяцах, годах (полезно, когда готовите данные для анализа выживаемости)
✅ =РАЗНДАТ(начальная_дата; конечная_дата; способ_измерения), способ измерения: "d" - разница в днях, "m" - разница в полных месяцах, "y" - разница в полных годах
Альтернативные решения:
✅ =(ГОД(конечная_дата)-ГОД(начальная_дата))*12+МЕСЯЦ(конечная_дата)-МЕСЯЦ(начальная_дата) - разница в полных месяцах
✅ =(ГОД(конечная_дата)-ГОД(начальная_дата)) - разница в полных годах
Подробнее здесь
Разность дат в днях, месяцах, годах (полезно, когда готовите данные для анализа выживаемости)
✅ =РАЗНДАТ(начальная_дата; конечная_дата; способ_измерения), способ измерения: "d" - разница в днях, "m" - разница в полных месяцах, "y" - разница в полных годах
Альтернативные решения:
✅ =(ГОД(конечная_дата)-ГОД(начальная_дата))*12+МЕСЯЦ(конечная_дата)-МЕСЯЦ(начальная_дата) - разница в полных месяцах
✅ =(ГОД(конечная_дата)-ГОД(начальная_дата)) - разница в полных годах
Подробнее здесь
excel2.ru
Функция РАЗНДАТ() - Вычисление разности двух дат в днях, месяцах, годах в EXCEL. Примеры и описание
Функция РАЗНДАТ() - Вычисление разности двух дат в днях, месяцах, годах в MS EXCEL. Для вычислений длительности временных интервалов удобней всего использовать недокументированную функцию РАЗНДАТ( ) , английский вариант DATEDIF().
👍1
Что делать, если у вас дефицит данных для анализа:
✅ Собрать больше новых данных (очевидно, но не всегда реально)
✅ Объединиться с другими исследователями (многоцентровые исследования)
✅ Использовать свои результаты совместно с уже опубликованными (мета-анализ)
✅ Снизить размерность данных (в рамках исследований с многофакторным анализом)
✅ Поменять задачи и методы исследования (упростить исследование)
✅ Использовать данные из открытых источников или маркетплейсов данных
✅ Синтезировать искусственные данные на основе имеющихся реальных
✅ Собрать больше новых данных (очевидно, но не всегда реально)
✅ Объединиться с другими исследователями (многоцентровые исследования)
✅ Использовать свои результаты совместно с уже опубликованными (мета-анализ)
✅ Снизить размерность данных (в рамках исследований с многофакторным анализом)
✅ Поменять задачи и методы исследования (упростить исследование)
✅ Использовать данные из открытых источников или маркетплейсов данных
✅ Синтезировать искусственные данные на основе имеющихся реальных
👍2
Про дисбаланс данных
Несбалансированность данных - проблема классификации или прогноза исхода, когда прогнозируемый класс (исход) не представлен в одинаковой пропорции с другими классами. Например, вы хотите прогнозировать некое событие, а его частота в выборке составляет только 1%. В целом проблемы могут уже начаться, если дисбаланс 1:4 или выражен сильнее.
Что делать в таком случае:
✅ Ничего не делать и посмотреть получится ли у вас хорошая модель. При определенных обстоятельствах дисбаланс может не повлиять на качество результата
✅ Собрать больше данных по несбалансированному классу
✅ Объединить слабо представленный класс с другими (если есть) в новый (общий) для его последующего прогнозирования
✅ Если у вас много данных, уровняйте классы путем создания новой случайной выборки в нужном вам соотношении
✅ Методы сэмплирования (SMOTE, ROSE ...) - искусственное дублирование наблюдений из редкого класса или удаление части наблюдений из популярного класса
✅ Использование алгоритмов, малочувствительных к дисбалансу. Например, деревья решений
✅ Синтез искусственных данных на основе имеющихся реальных
Несбалансированность данных - проблема классификации или прогноза исхода, когда прогнозируемый класс (исход) не представлен в одинаковой пропорции с другими классами. Например, вы хотите прогнозировать некое событие, а его частота в выборке составляет только 1%. В целом проблемы могут уже начаться, если дисбаланс 1:4 или выражен сильнее.
Что делать в таком случае:
✅ Ничего не делать и посмотреть получится ли у вас хорошая модель. При определенных обстоятельствах дисбаланс может не повлиять на качество результата
✅ Собрать больше данных по несбалансированному классу
✅ Объединить слабо представленный класс с другими (если есть) в новый (общий) для его последующего прогнозирования
✅ Если у вас много данных, уровняйте классы путем создания новой случайной выборки в нужном вам соотношении
✅ Методы сэмплирования (SMOTE, ROSE ...) - искусственное дублирование наблюдений из редкого класса или удаление части наблюдений из популярного класса
✅ Использование алгоритмов, малочувствительных к дисбалансу. Например, деревья решений
✅ Синтез искусственных данных на основе имеющихся реальных
👍1
Я хочу сделать прогностическую модель. Какие знания мне нужны? Вот эти:
1. Расчет минимального размера выборки (данных много не бывает!)
2. Селекция предикторов (до-, во время-, после построения модели)
3. Выбор алгоритма модели и допущения к методу (их очень много, часто используемый - логистическая регрессия)
4. Внутренняя валидация модели (бутстрэп, кросс-валидация)
5. Калибровка модели (калибровочная кривая)
6. Проверка стабильности модели (график нестабильности)
7. Внешняя валидация модели
Дополнительно:
8. Презентация (визуализация) модели для пользователя
9. Кривая принятия решений (Decision curve)
10. Анализ влияния (Impact analysis)
1. Расчет минимального размера выборки (данных много не бывает!)
2. Селекция предикторов (до-, во время-, после построения модели)
3. Выбор алгоритма модели и допущения к методу (их очень много, часто используемый - логистическая регрессия)
4. Внутренняя валидация модели (бутстрэп, кросс-валидация)
5. Калибровка модели (калибровочная кривая)
6. Проверка стабильности модели (график нестабильности)
7. Внешняя валидация модели
Дополнительно:
8. Презентация (визуализация) модели для пользователя
9. Кривая принятия решений (Decision curve)
10. Анализ влияния (Impact analysis)
🔥2
О двух больших проблемах прогностических моделей
✅ Bias (смещение, предвзятость) — систематическая ошибка из-за ошибочного моделирования. Смещение описывает, насколько хорошо модель соответствует данным и закономерностям в них. Смещение модели приводит к тому, что итоговый алгоритм содержит в себе неверные связи между входными данными (признаками) и целевыми выходными данными (прогнозами). Модель с высоким риском bias будет иметь высокий риск неверного прогноза при практическом применении, другими словами, не будет эффективной.
Причины смещения:
- Нарушение методологии построения моделей на любом из этапов, начиная с недостаточного размера выборки, заканчивая отсутствием строгой валидации
- Слишком простая модель, которая не отражает тенденции, присутствующие в наборе данных
- Слишком сложная, переобученная модель
✅ Дисперсия (нестабильность) — насколько сильно меняется модель, когда вы обучаете ее, используя разные части тренировочного набора данных. Модель с высокой дисперсией будет иметь широкий диапазон прогноза (доверительный интервал), что также сделает ее неэффективной при практическом применении.
Главная причина нестабильности модели - маленький размер обучающей выборки.
✅ Bias (смещение, предвзятость) — систематическая ошибка из-за ошибочного моделирования. Смещение описывает, насколько хорошо модель соответствует данным и закономерностям в них. Смещение модели приводит к тому, что итоговый алгоритм содержит в себе неверные связи между входными данными (признаками) и целевыми выходными данными (прогнозами). Модель с высоким риском bias будет иметь высокий риск неверного прогноза при практическом применении, другими словами, не будет эффективной.
Причины смещения:
- Нарушение методологии построения моделей на любом из этапов, начиная с недостаточного размера выборки, заканчивая отсутствием строгой валидации
- Слишком простая модель, которая не отражает тенденции, присутствующие в наборе данных
- Слишком сложная, переобученная модель
✅ Дисперсия (нестабильность) — насколько сильно меняется модель, когда вы обучаете ее, используя разные части тренировочного набора данных. Модель с высокой дисперсией будет иметь широкий диапазон прогноза (доверительный интервал), что также сделает ее неэффективной при практическом применении.
Главная причина нестабильности модели - маленький размер обучающей выборки.
🔥1
#среднийуровень
Однофакторный анализ - не лучший вариант выбора ковариат перед многофакторным анализом (для создания прогностической модели)!
❌ Однофакторный анализ перед многофакторным или метод Хосмера-Лемешоу подразумевает поочередную проверку всех факторов и выбор значимых из них для включения в многофакторную модель. При этом выбор происходит на основании порога значимости для каждой из ковариат, который может быть 0.05, 0.1, 0.2, 0.25, другими словами почти любой. Порог 0.05 приведет к отсеиванию полезных предикторов, но даже порог 0.2-0.25 не гарантирует, что этого не произойдет. Прогностическая модель не обязательно должна включать в себя только значимые ковариаты, скорее наоборот! Еще большее увеличение порога лишает смысла данный подход, так как делает его крайне неспецифичным и неизбирательным. Данный метод, который относится к методам селекции предикторов до этапа моделирования, с большой вероятностью приведет к созданию модели с неоптимальной (не самой эффективной) комбинацией предикторов. Кроме того, при большом числе потенциальных предикторов, такой анализ просто долго делать.
✅ Правильным решением является выбор предикторов в процессе создания модели. Другими словами, в начальную (родительскую) модель включаются все факторы, которые удалось описать. В процессе моделирования модель упрощается путем селекции предикторов, повышающих ее прогностическую эффективность и избавления от неэффективных ковариат.
К таким методам со своими плюсами и минусами относятся: пошаговая регрессия (например, с использованием информационного критерия Акаике - AIC), тест отношения правдоподобия (золотой стандарт), методы регуляризации (регрессия LASSO, гребневая регрессия).
Однофакторный анализ - не лучший вариант выбора ковариат перед многофакторным анализом (для создания прогностической модели)!
❌ Однофакторный анализ перед многофакторным или метод Хосмера-Лемешоу подразумевает поочередную проверку всех факторов и выбор значимых из них для включения в многофакторную модель. При этом выбор происходит на основании порога значимости для каждой из ковариат, который может быть 0.05, 0.1, 0.2, 0.25, другими словами почти любой. Порог 0.05 приведет к отсеиванию полезных предикторов, но даже порог 0.2-0.25 не гарантирует, что этого не произойдет. Прогностическая модель не обязательно должна включать в себя только значимые ковариаты, скорее наоборот! Еще большее увеличение порога лишает смысла данный подход, так как делает его крайне неспецифичным и неизбирательным. Данный метод, который относится к методам селекции предикторов до этапа моделирования, с большой вероятностью приведет к созданию модели с неоптимальной (не самой эффективной) комбинацией предикторов. Кроме того, при большом числе потенциальных предикторов, такой анализ просто долго делать.
✅ Правильным решением является выбор предикторов в процессе создания модели. Другими словами, в начальную (родительскую) модель включаются все факторы, которые удалось описать. В процессе моделирования модель упрощается путем селекции предикторов, повышающих ее прогностическую эффективность и избавления от неэффективных ковариат.
К таким методам со своими плюсами и минусами относятся: пошаговая регрессия (например, с использованием информационного критерия Акаике - AIC), тест отношения правдоподобия (золотой стандарт), методы регуляризации (регрессия LASSO, гребневая регрессия).
👍1
#среднийуровень
Про тест отношения правдоподобия
✅ Правдоподобие (Likelihood) - вероятность гипотезы (их число может быть неограниченным).
✅ Probability – вероятность результата от 0 до 1 (подчиняется законам теории вероятности).
✅ Отношение правдоподобия (фактор Байеса, Likelihood Ratio, LR) – решение о том, какая из гипотез более правдоподобна в эксперименте.
Рассмотрим на примере. Представим, что наша модель прогноза (или диагностический тест) заболевания имеет чувствительность 0.9 и специфичность 0.85 (тогда частота ложноположительных результатов = 1-0.85=0.15). Модель (тест) будет прогнозировать заболевание у пациента, имеющего данное заболевание, в 0.9/0.15 = 6 раз чаще, чем просто случайно. Это и есть LR+ для положительного результата модели (теста).
Другими словами, если до применения модели (теста), вероятность заболевания у пациента расценивалась как 50/50 (50%) или шансы 1:1 (гипотеза А), то после получения результатов о наличии заболевания шансы увеличились до 1*LR=6, а вероятность заболевания составила 6/(1+6) = 86% (гипотеза B). Вероятность гипотезы, что пациент болен увеличилась на 86-50=36% по сравнению с вероятностью гипотезы, что он болен с вероятностью 50%. Или еще раз другими словами отношение для гипотез B и A = 6:1.
Формулы для расчета:
Существует четыре возможных группы больных:
группа a - больные, имеющие положительный результат теста;
группа b - здоровые, имеющие положительный результат теста;
группа c - больные, имеющие отрицательный результат теста;
группа d - здоровые, имеющие отрицательный результат теста;
LR+ = чувствительность/(1-специфичность) = (a/(a+c))/(b/(b+d))
LR- = (1-чувствительность)/специфичность = (c/(a+c))/(d/(b+d))
Дотестовые шансы = дотестовая вероятность/(1-дотестовая вероятность)
Послетестовые шансы = дотестовые шансы * LR+
Послетестовая вероятность = послетестовые шансы/(послетестовые шансы +1)
P.S. Сразу может быть сложно, нужно потренироваться на примерах
Про тест отношения правдоподобия
✅ Правдоподобие (Likelihood) - вероятность гипотезы (их число может быть неограниченным).
✅ Probability – вероятность результата от 0 до 1 (подчиняется законам теории вероятности).
✅ Отношение правдоподобия (фактор Байеса, Likelihood Ratio, LR) – решение о том, какая из гипотез более правдоподобна в эксперименте.
Рассмотрим на примере. Представим, что наша модель прогноза (или диагностический тест) заболевания имеет чувствительность 0.9 и специфичность 0.85 (тогда частота ложноположительных результатов = 1-0.85=0.15). Модель (тест) будет прогнозировать заболевание у пациента, имеющего данное заболевание, в 0.9/0.15 = 6 раз чаще, чем просто случайно. Это и есть LR+ для положительного результата модели (теста).
Другими словами, если до применения модели (теста), вероятность заболевания у пациента расценивалась как 50/50 (50%) или шансы 1:1 (гипотеза А), то после получения результатов о наличии заболевания шансы увеличились до 1*LR=6, а вероятность заболевания составила 6/(1+6) = 86% (гипотеза B). Вероятность гипотезы, что пациент болен увеличилась на 86-50=36% по сравнению с вероятностью гипотезы, что он болен с вероятностью 50%. Или еще раз другими словами отношение для гипотез B и A = 6:1.
Формулы для расчета:
Существует четыре возможных группы больных:
группа a - больные, имеющие положительный результат теста;
группа b - здоровые, имеющие положительный результат теста;
группа c - больные, имеющие отрицательный результат теста;
группа d - здоровые, имеющие отрицательный результат теста;
LR+ = чувствительность/(1-специфичность) = (a/(a+c))/(b/(b+d))
LR- = (1-чувствительность)/специфичность = (c/(a+c))/(d/(b+d))
Дотестовые шансы = дотестовая вероятность/(1-дотестовая вероятность)
Послетестовые шансы = дотестовые шансы * LR+
Послетестовая вероятность = послетестовые шансы/(послетестовые шансы +1)
P.S. Сразу может быть сложно, нужно потренироваться на примерах
👍3
Про виды показателей выживаемости в медицине
Цель исследования выживаемости: оценка вероятности (частоты) исхода (смерть / рецидив / событие) во времени
Статистический метод: кривая Каплана-Мейера
Данные: время наблюдения для каждого пациента (дни / месяцы / годы) + исход (1 - исход случился, наблюдение
завершено / 0 - исход не случился, наблюдение цензурировано)
Основные показатели выживаемости:
✅ Общая выживаемость (Overall survival, OS) - время от даты постановки диагноза до даты смерти по любой причине или цензурирования наблюдения.
✅ Выживаемость без прогрессии (Progressive-free survival, PFS) - время от даты рандомизации или начала лечения до даты
прогрессии или смерти по любым причинам или цензурирования наблюдения.
✅ Безрецидивная выживаемость (Disease-free survival, DFS) - время от даты ремиссии или даты окончания лечения до даты рецидива или смерти по любым причинам или цензурирования наблюдения.
✅ Бессобытийная выживаемость (Event-free survival, EFS) - время от даты рандомизации или начала лечения до даты "негативного" события (смерть / прогрессия / тяжелая токсичность или др.) или цензурирования наблюдения.
Дополнительные:
✅ Выживаемость, связанная с заболеванием (Disease-specific survival, DSS) - время от даты постановки диагноза до даты смерти по причине данного заболевания или цензурирования наблюдения.
✅ Выживаемость, свободная от неудач лечения (Failure-free survival, FFS) - время от даты рандомизации или начала лечения до даты "неудачи лечения" (прогрессия / непереносимость терапии).
Цель исследования выживаемости: оценка вероятности (частоты) исхода (смерть / рецидив / событие) во времени
Статистический метод: кривая Каплана-Мейера
Данные: время наблюдения для каждого пациента (дни / месяцы / годы) + исход (1 - исход случился, наблюдение
завершено / 0 - исход не случился, наблюдение цензурировано)
Основные показатели выживаемости:
✅ Общая выживаемость (Overall survival, OS) - время от даты постановки диагноза до даты смерти по любой причине или цензурирования наблюдения.
✅ Выживаемость без прогрессии (Progressive-free survival, PFS) - время от даты рандомизации или начала лечения до даты
прогрессии или смерти по любым причинам или цензурирования наблюдения.
✅ Безрецидивная выживаемость (Disease-free survival, DFS) - время от даты ремиссии или даты окончания лечения до даты рецидива или смерти по любым причинам или цензурирования наблюдения.
✅ Бессобытийная выживаемость (Event-free survival, EFS) - время от даты рандомизации или начала лечения до даты "негативного" события (смерть / прогрессия / тяжелая токсичность или др.) или цензурирования наблюдения.
Дополнительные:
✅ Выживаемость, связанная с заболеванием (Disease-specific survival, DSS) - время от даты постановки диагноза до даты смерти по причине данного заболевания или цензурирования наблюдения.
✅ Выживаемость, свободная от неудач лечения (Failure-free survival, FFS) - время от даты рандомизации или начала лечения до даты "неудачи лечения" (прогрессия / непереносимость терапии).
👍2
Как расчитать референсный интервал (РИ) для лабораторного параметра
✅ Вариант 1. Нормальное распределение. При нормальном или близко к нормальному распределению без выбросов за РИ можно взять интервал в 90%, 95% или 99%. 95% интервал (~2 стандартных отклонения) является наиболее частым и предпочтительным.
✅ Вариант 2. Перцентильный метод. При ненормальном распределении за РИ может быть взят диапазон значений, например, между 2.5 (5) и 97.5 (95) перцентилями. Рекомендуемый размер выборки при этом должен быть не менее 120 значений.
✅ Вариант 3. Бутстрэппинг. Применяется при небольшом размере выборки (<120). Выполняется генерация случайных выборок с последующим использованием того же перцентильного метода.
⚠ Перед расчетом РИ "плохие" (асиметричные) данные могут быть преобразованы, например, через логарифмическое преобразование или преобразование Бокса-Кокса.
✅ Вариант 1. Нормальное распределение. При нормальном или близко к нормальному распределению без выбросов за РИ можно взять интервал в 90%, 95% или 99%. 95% интервал (~2 стандартных отклонения) является наиболее частым и предпочтительным.
✅ Вариант 2. Перцентильный метод. При ненормальном распределении за РИ может быть взят диапазон значений, например, между 2.5 (5) и 97.5 (95) перцентилями. Рекомендуемый размер выборки при этом должен быть не менее 120 значений.
✅ Вариант 3. Бутстрэппинг. Применяется при небольшом размере выборки (<120). Выполняется генерация случайных выборок с последующим использованием того же перцентильного метода.
⚠ Перед расчетом РИ "плохие" (асиметричные) данные могут быть преобразованы, например, через логарифмическое преобразование или преобразование Бокса-Кокса.