Про WebPlotDigitizer и распределение Вейбулла
Графики с кривыми выживаемости — один из важнейших источников информации в клинических исследованиях, особенно если исходные индивидуальные данные недоступны. Однако сами по себе изображения имеют ограниченную аналитическую ценность, и для проведения более глубоких оценок их необходимо переводить в числовой формат. Проблема в том, что исходные данные почти всегда недоступны, так как не предоставляются авторами исследований и статей.
Графики с кривыми выживаемости — один из важнейших источников информации в клинических исследованиях, особенно если исходные индивидуальные данные недоступны. Однако сами по себе изображения имеют ограниченную аналитическую ценность, и для проведения более глубоких оценок их необходимо переводить в числовой формат. Проблема в том, что исходные данные почти всегда недоступны, так как не предоставляются авторами исследований и статей.
👍1🔥1
Тем не менее, мы можем получить данные прямо из графиков. Для этого применяются специальные инструменты, например WebPlotDigitizer, которые позволяют оцифровать кривые Каплана-Мэйера, получив значения вероятности выживаемости во времени для каждой исследуемой группы.
После оцифровки можно перейти к следующему шагу — аппроксимации полученных точек с помощью математических распределений, чаще всего Вейбулла или экспоненциального распределения. Такая аппроксимация обеспечивает гладкое описание кривых и позволяет не только воспроизвести имеющиеся данные, но и экстраполировать их за пределы наблюдаемого периода. Кроме того, аппроксимированные кривые дают возможность вычислять вероятность событий в любой момент времени и формировать таблицы переходов для дальнейшего моделирования.
Когда кривые преобразованы в числовую форму, появляется возможность провести статистический анализ, например построить модель пропорциональных рисков Кокса. На основе времени до события (прогрессия или смерть) и информации о цензурировании модель Кокса позволяет рассчитать отношение рисков (hazard ratio) между двумя группами и доверительные интервалы для этой оценки. Таким образом можно количественно сравнить эффективность двух стратегий даже без доступа к исходным данным пациентов.
Наконец, такие аппроксимированные и оцифрованные кривые становятся базой для проведения более сложных исследований, в том числе фармакоэкономических. Именно они позволяют моделировать виртуальные когорты пациентов, рассчитывать время до прогрессии, задавать сценарии лечения и оценивать их экономические последствия в условиях ограниченного горизонта.
В моем недавнем проекте я использовал кривые выживаемости из исследования AQUILA (по множественной миеломе). На картинках показаны оригинальные и оцифрованные и апроксимированные кривые выживаемости. Мой расчетный HR составил 0.51 (0.35-0.82), что близко к оригиналу - 0.49 (0.36-0.67).
После оцифровки можно перейти к следующему шагу — аппроксимации полученных точек с помощью математических распределений, чаще всего Вейбулла или экспоненциального распределения. Такая аппроксимация обеспечивает гладкое описание кривых и позволяет не только воспроизвести имеющиеся данные, но и экстраполировать их за пределы наблюдаемого периода. Кроме того, аппроксимированные кривые дают возможность вычислять вероятность событий в любой момент времени и формировать таблицы переходов для дальнейшего моделирования.
Когда кривые преобразованы в числовую форму, появляется возможность провести статистический анализ, например построить модель пропорциональных рисков Кокса. На основе времени до события (прогрессия или смерть) и информации о цензурировании модель Кокса позволяет рассчитать отношение рисков (hazard ratio) между двумя группами и доверительные интервалы для этой оценки. Таким образом можно количественно сравнить эффективность двух стратегий даже без доступа к исходным данным пациентов.
Наконец, такие аппроксимированные и оцифрованные кривые становятся базой для проведения более сложных исследований, в том числе фармакоэкономических. Именно они позволяют моделировать виртуальные когорты пациентов, рассчитывать время до прогрессии, задавать сценарии лечения и оценивать их экономические последствия в условиях ограниченного горизонта.
В моем недавнем проекте я использовал кривые выживаемости из исследования AQUILA (по множественной миеломе). На картинках показаны оригинальные и оцифрованные и апроксимированные кривые выживаемости. Мой расчетный HR составил 0.51 (0.35-0.82), что близко к оригиналу - 0.49 (0.36-0.67).
automeris.io
automeris.io: Computer vision assisted data extraction from charts using WebPlotDigitizer
Web based software to extract data from plots, charts, bar charts etc.
🔥1
Будьте осторожны с ROC-кривой!
Если вы создаете прогностическую модель на несбалансированных данных, где "положительный исход" (например, летальный исход) встречается значительно реже, чем отрицательный, не стоит полагаться исключительно на ROC-кривую при оценке качества модели. Бинарные классификаторы традиционно оцениваются с помощью таких метрик, как чувствительность и специфичность, а их производительность часто визуализируется с помощью ROC-кривых. Альтернативные метрики, такие как положительная прогностическая ценность (PPV) и связанные с ней графики точности и полноты (PRC-кривые), используются реже, несмотря на их важность в задачах с выраженным дисбалансом классов.
Во многих прикладных исследованиях, включая биомедицинские задачи, классификаторы обучаются и тестируются на выборках, в которых число отрицательных случаев существенно превышает количество положительных. Хотя ROC-кривые дают общее представление о работе модели по всей шкале специфичности, в условиях дисбаланса они могут вводить в заблуждение. Это связано с тем, что высокая специфичность при малом числе положительных случаев может быть достигнута даже при неэффективной идентификации положительного класса — за счет большого числа верно классифицированных отрицательных примеров.
В новом исследовании показано, что ROC-кривые в таких ситуациях могут создавать иллюзию высокой точности, поскольку специфичность, входящая в их расчет, сохраняется высокой даже при минимальной чувствительности. В отличие от них, PRC-кривые более чувствительны к качеству распознавания редкого положительного класса, так как фокусируются на доле истинно положительных результатов среди всех положительных предсказаний.
Допустим, вы прогнозируете летальный исход у пациентов по выборке из 100 человек, из которых только 10 действительно умерли. ROC-кривая может демонстрировать высокое качество модели за счет правильной классификации 90 выживших пациентов (отрицательных случаев), даже если модель почти не определяет умерших. То есть, даже при низкой чувствительности, специфичность остается высокой, и ROC-кривая выглядит убедительно. Однако такая модель практически бесполезна в реальном прогнозировании летальности, поскольку не выполняет свою основную функцию — выявление редких, но критически важных положительных исходов. В этом случае PRC-кривая даст более реалистичную оценку, поскольку она акцентирует внимание на том, насколько точны положительные предсказания и какова доля среди них действительно верных.
Если вы создаете прогностическую модель на несбалансированных данных, где "положительный исход" (например, летальный исход) встречается значительно реже, чем отрицательный, не стоит полагаться исключительно на ROC-кривую при оценке качества модели. Бинарные классификаторы традиционно оцениваются с помощью таких метрик, как чувствительность и специфичность, а их производительность часто визуализируется с помощью ROC-кривых. Альтернативные метрики, такие как положительная прогностическая ценность (PPV) и связанные с ней графики точности и полноты (PRC-кривые), используются реже, несмотря на их важность в задачах с выраженным дисбалансом классов.
Во многих прикладных исследованиях, включая биомедицинские задачи, классификаторы обучаются и тестируются на выборках, в которых число отрицательных случаев существенно превышает количество положительных. Хотя ROC-кривые дают общее представление о работе модели по всей шкале специфичности, в условиях дисбаланса они могут вводить в заблуждение. Это связано с тем, что высокая специфичность при малом числе положительных случаев может быть достигнута даже при неэффективной идентификации положительного класса — за счет большого числа верно классифицированных отрицательных примеров.
В новом исследовании показано, что ROC-кривые в таких ситуациях могут создавать иллюзию высокой точности, поскольку специфичность, входящая в их расчет, сохраняется высокой даже при минимальной чувствительности. В отличие от них, PRC-кривые более чувствительны к качеству распознавания редкого положительного класса, так как фокусируются на доле истинно положительных результатов среди всех положительных предсказаний.
Допустим, вы прогнозируете летальный исход у пациентов по выборке из 100 человек, из которых только 10 действительно умерли. ROC-кривая может демонстрировать высокое качество модели за счет правильной классификации 90 выживших пациентов (отрицательных случаев), даже если модель почти не определяет умерших. То есть, даже при низкой чувствительности, специфичность остается высокой, и ROC-кривая выглядит убедительно. Однако такая модель практически бесполезна в реальном прогнозировании летальности, поскольку не выполняет свою основную функцию — выявление редких, но критически важных положительных исходов. В этом случае PRC-кривая даст более реалистичную оценку, поскольку она акцентирует внимание на том, насколько точны положительные предсказания и какова доля среди них действительно верных.
journals.plos.org
The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets
Binary classifiers are routinely evaluated with performance measures such as sensitivity and specificity, and performance is frequently illustrated with Receiver Operating Characteristics (ROC) plots. Alternative measures such as positive predictive value…
👍3
Как фундаментальная неопределенность мешает принимать решения в медицине
Медицина — постоянное принятие решений в условиях неопределенности. Врачи привыкли к тому, что реальность сложнее, чем результаты клинических исследований, и что даже статистически значимые выводы не гарантируют точного прогноза для конкретного пациента. Но откуда берется эта фундаментальная неопределенность и почему она так мешает клиническому мышлению?
Возьмем простой пример. В исследовании показано, что наличие фактора А ухудшает прогноз выживаемости. Мы встречаем пациента, у которого этот фактор присутствует, и по логике «однофакторного анализа» ожидаем худший исход. Все вроде бы очевидно. Но затем мы замечаем фактор B, который тоже ассоциируется с неблагоприятным исходом. Возникает вопрос: если у пациента есть оба фактора, насколько именно его прогноз хуже? Нужно ли складывать их эффекты, умножать, или один из них «доминирует»?
А потом появляется фактор C, который в другом исследовании, наоборот, улучшал выживаемость. Значит ли это, что он частично компенсирует действие факторов А и B? Или его эффект будет нивелирован их присутствием? На практике это не так просто: взаимодействия между факторами могут быть нелинейными, зависеть от контекста, коморбидности и десятков других скрытых переменных.
Вот в этот момент простая логика однофакторного анализа перестает работать. Она полезная отправная точка, но не инструмент для индивидуального прогноза. Реальный пациент — не средний участник исследования, а уникальная комбинация признаков, каждый из которых может менять значение другого. Именно поэтому многомерные модели, машинное обучение и нейросетевые подходы стремятся уловить эти сложные взаимосвязи. Но даже они не устраняют неопределенность, а лишь немного сокращают ее.
Фундаментальная неопределенность — это не недостаток науки, а ее постоянный спутник. Любая статистическая модель основана на вероятностях, а не на детерминизме. Она может подсказать, что «пациенты с профилем, похожим на вашего, имели худший исход в 68% случаев», но не ответит, что произойдет именно с ним. Поэтому байесовские подходы выигрывают, поэтому однофакторный анализ это только разминка для ума, но не способ принятия решений, поэтому ИИ для многофакторного анализа — текущая необходимость.
Также здесь важно помнить, что цель статистики — не дать окончательный ответ, а помочь врачу принять более информированное решение, осознавая границы предсказаний. Искусство медицины — умение жить внутри этой неопределенности, не отрицая ее, но используя данные максимально рационально.
Медицина — постоянное принятие решений в условиях неопределенности. Врачи привыкли к тому, что реальность сложнее, чем результаты клинических исследований, и что даже статистически значимые выводы не гарантируют точного прогноза для конкретного пациента. Но откуда берется эта фундаментальная неопределенность и почему она так мешает клиническому мышлению?
Возьмем простой пример. В исследовании показано, что наличие фактора А ухудшает прогноз выживаемости. Мы встречаем пациента, у которого этот фактор присутствует, и по логике «однофакторного анализа» ожидаем худший исход. Все вроде бы очевидно. Но затем мы замечаем фактор B, который тоже ассоциируется с неблагоприятным исходом. Возникает вопрос: если у пациента есть оба фактора, насколько именно его прогноз хуже? Нужно ли складывать их эффекты, умножать, или один из них «доминирует»?
А потом появляется фактор C, который в другом исследовании, наоборот, улучшал выживаемость. Значит ли это, что он частично компенсирует действие факторов А и B? Или его эффект будет нивелирован их присутствием? На практике это не так просто: взаимодействия между факторами могут быть нелинейными, зависеть от контекста, коморбидности и десятков других скрытых переменных.
Вот в этот момент простая логика однофакторного анализа перестает работать. Она полезная отправная точка, но не инструмент для индивидуального прогноза. Реальный пациент — не средний участник исследования, а уникальная комбинация признаков, каждый из которых может менять значение другого. Именно поэтому многомерные модели, машинное обучение и нейросетевые подходы стремятся уловить эти сложные взаимосвязи. Но даже они не устраняют неопределенность, а лишь немного сокращают ее.
Фундаментальная неопределенность — это не недостаток науки, а ее постоянный спутник. Любая статистическая модель основана на вероятностях, а не на детерминизме. Она может подсказать, что «пациенты с профилем, похожим на вашего, имели худший исход в 68% случаев», но не ответит, что произойдет именно с ним. Поэтому байесовские подходы выигрывают, поэтому однофакторный анализ это только разминка для ума, но не способ принятия решений, поэтому ИИ для многофакторного анализа — текущая необходимость.
Также здесь важно помнить, что цель статистики — не дать окончательный ответ, а помочь врачу принять более информированное решение, осознавая границы предсказаний. Искусство медицины — умение жить внутри этой неопределенности, не отрицая ее, но используя данные максимально рационально.
Давайте я еще раз скажу, что такое доверительный интервал
ДИ — интервал, который говорит нам, что если бы мы повторяли одно и то же исследование бесконечное число раз и каждый раз вычисляли 95% ДИ одним и тем же способом, то около 95% этих интервалов содержали бы истинный эффект.
Представим что Hazard ratio = 0.72 (95% CI 0.55–0.94). Истинное значение HR мы не знаем и не узнаем никогда! 0.72 — не истинное значение, а значение, вычисленное на основе конкретных данных одной выборки (нашего исследования) и при повторении исследования оно изменится. Другими словами 0.72 — случайная величина, зависящая от выборки. Если бы мы провели бесконечно много таких исследований и каждый раз строили интервал тем же способом, то примерно в 95% случаев полученные интервалы включали бы истинное HR. Мы же имеем только один из таких интервалов — (0.55–0.94). Мы не знаем, попал ли в него истинный HR, но говорим, что в 95% случаев "попадает".
Это рассуждение относится к любым другим статистическим методам в частотной статистике.
ДИ — интервал, который говорит нам, что если бы мы повторяли одно и то же исследование бесконечное число раз и каждый раз вычисляли 95% ДИ одним и тем же способом, то около 95% этих интервалов содержали бы истинный эффект.
Представим что Hazard ratio = 0.72 (95% CI 0.55–0.94). Истинное значение HR мы не знаем и не узнаем никогда! 0.72 — не истинное значение, а значение, вычисленное на основе конкретных данных одной выборки (нашего исследования) и при повторении исследования оно изменится. Другими словами 0.72 — случайная величина, зависящая от выборки. Если бы мы провели бесконечно много таких исследований и каждый раз строили интервал тем же способом, то примерно в 95% случаев полученные интервалы включали бы истинное HR. Мы же имеем только один из таких интервалов — (0.55–0.94). Мы не знаем, попал ли в него истинный HR, но говорим, что в 95% случаев "попадает".
Это рассуждение относится к любым другим статистическим методам в частотной статистике.
👍1
Вот еще одно хорошее объяснение ДИ 👇
Частотный доверительный интервал (ДИ) — интервал, который рассчитывается на основе выборочных данных с целью приблизительной оценки неизвестного истинного значения некоторого параметра (например, среднего значения или эффекта). Однако такой интервал не является утверждением о вероятности самого истинного значения.
Предположим, вы хотите оценить средний рост взрослых жителей города. Измерить рост каждого жителя невозможно, поэтому вы выбираете случайную выборку и строите ДИ. Допустим, результатом оказывается интервал от 170 до 180 см с уровнем доверия 95%.
Это означает следующее:
Если бы вы многократно повторяли весь процесс, каждый раз отбирая новую случайную выборку и рассчитывая аналогичный ДИ, то примерно в 95% случаев полученные интервалы охватывали бы истинное среднее значение роста всей популяции. Однако для конкретного рассчитанного интервала (170–180 см) истинное значение либо попадает в него, либо нет — после получения данных понятие вероятности к самому интервалу более не применяется.
Наиболее распространенная ошибка — утверждать, что «с вероятностью 95% истинное среднее находится между 170 и 180 см». С точки зрения частотной интерпретации это неверно. Указанный уровень доверия относится к долгосрочной частоте успеха процедуры построения интервала, а не к вероятности для конкретного результата. На практике ДИ от 170 до 180 см указывает на диапазон вполне возможных значений среднего роста в популяции на основании ваших данных.
Хотя вы не знаете истинное среднее, ДИ предоставляет количественную оценку точности и неопределенности:
🔹 Ширина интервала (в данном случае 10 см) отражает степень неопределенности: чем уже интервал, тем более точной считается оценка; чем шире, тем выше неопределенность.
🔹 Сам интервал (170–180 см) представляет собой оценку того, в каком диапазоне, согласно вашей выборке и методике, может находиться истинное среднее значение.
Частотный доверительный интервал (ДИ) — интервал, который рассчитывается на основе выборочных данных с целью приблизительной оценки неизвестного истинного значения некоторого параметра (например, среднего значения или эффекта). Однако такой интервал не является утверждением о вероятности самого истинного значения.
Предположим, вы хотите оценить средний рост взрослых жителей города. Измерить рост каждого жителя невозможно, поэтому вы выбираете случайную выборку и строите ДИ. Допустим, результатом оказывается интервал от 170 до 180 см с уровнем доверия 95%.
Это означает следующее:
Если бы вы многократно повторяли весь процесс, каждый раз отбирая новую случайную выборку и рассчитывая аналогичный ДИ, то примерно в 95% случаев полученные интервалы охватывали бы истинное среднее значение роста всей популяции. Однако для конкретного рассчитанного интервала (170–180 см) истинное значение либо попадает в него, либо нет — после получения данных понятие вероятности к самому интервалу более не применяется.
Наиболее распространенная ошибка — утверждать, что «с вероятностью 95% истинное среднее находится между 170 и 180 см». С точки зрения частотной интерпретации это неверно. Указанный уровень доверия относится к долгосрочной частоте успеха процедуры построения интервала, а не к вероятности для конкретного результата. На практике ДИ от 170 до 180 см указывает на диапазон вполне возможных значений среднего роста в популяции на основании ваших данных.
Хотя вы не знаете истинное среднее, ДИ предоставляет количественную оценку точности и неопределенности:
🔹 Ширина интервала (в данном случае 10 см) отражает степень неопределенности: чем уже интервал, тем более точной считается оценка; чем шире, тем выше неопределенность.
🔹 Сам интервал (170–180 см) представляет собой оценку того, в каком диапазоне, согласно вашей выборке и методике, может находиться истинное среднее значение.
Порог — артефакт контекста анализа данных, а не свойство прогностической модели
В анализе данных и особенно в медицинской статистике продолжается странное недоразумение. Некоторые преподаватели по-прежнему внушают студентам и исследователям идею, будто можно «найти оптимальный порог вероятности» и на его основе делать выводы о качестве модели. Ах, да, они еще берут за это деньги 🤥. Эта практика не просто методологически устарела — она логически ошибочна.
Порог не является свойством модели! Он — функция конкретной выборки, распределения классов и критериев, которые выбрал исследователь.
Стоит изменить выборку, изменится и оптимальный порог, и вслед за ним чувствительность, специфичность, индекс Юдена и другие метрики. Это не дефект статистики, а ее природа. Данные всегда контекстуальны, и характеристики модели на одной выборке не переносятся на другую без переоценки. Когда мы вычисляем «лучший порог» по ROC-кривой, мы всего лишь подгоняем модель под эмпирические особенности конкретного набора наблюдений. В другой клинике, в другом городе, при иной распространенности исхода этот порог потеряет смысл, он будет другой. Это не то, что легко проверяется, это просто элементарно понятно. Поэтому попытки искать «универсальный» порог не просто бесполезны, а вредны! Они создают иллюзию точности там, где нужно говорить о вероятности и неопределенности.
Калибруйте модели! Хорошо калиброванная модель не нуждается в пороге. Она сообщает вероятность события — например, риск осложнения 0.82, и этим исчерпывает задачу предсказания. Решение (лечить, госпитализировать, наблюдать) должно приниматься не статистикой, а клиническим контекстом и ценой ошибки. Порог в этом смысле это не сакральное знание, а договор между вероятностью и вашим действием, зависящий от многих условий, которые вы не контролируете.
Представьте, что метеорологическая модель говорит: «Завтра дождь с вероятностью 80%.» Все, это и есть результат. Информация исчерпывающая. С вероятностью 80% дождь будет, с вероятностью 20% — нет. Вы, человек, принимаете решение — взять зонт или рискнуть и оставить его дома. Это и есть суть вероятностного мышления.
Но вместо этого вас учат придумать порог, например 60%. Если прогноз выше порога — значит, «дождь». Если ниже — «солнце». Дальше вычисляют чувствительность и специфичность прогноза дождя при этом пороге, а потом обсуждают, насколько «точна» модель. Это абсурд, ведь сам порог — не часть модели, а человеческая условность! Завтра вы выберете порог 70% и получите другие метрики. Модель не изменилась, изменилась ваша интерпретация.
Использовать «оптимальный порог» из одной выборки — все равно что измерить температуру в одной комнате и объявить ее нормой для всей планеты. Это не наука, а методологический самообман, маскирующий неопределенность под цифры.
В анализе данных и особенно в медицинской статистике продолжается странное недоразумение. Некоторые преподаватели по-прежнему внушают студентам и исследователям идею, будто можно «найти оптимальный порог вероятности» и на его основе делать выводы о качестве модели. Ах, да, они еще берут за это деньги 🤥. Эта практика не просто методологически устарела — она логически ошибочна.
Порог не является свойством модели! Он — функция конкретной выборки, распределения классов и критериев, которые выбрал исследователь.
Стоит изменить выборку, изменится и оптимальный порог, и вслед за ним чувствительность, специфичность, индекс Юдена и другие метрики. Это не дефект статистики, а ее природа. Данные всегда контекстуальны, и характеристики модели на одной выборке не переносятся на другую без переоценки. Когда мы вычисляем «лучший порог» по ROC-кривой, мы всего лишь подгоняем модель под эмпирические особенности конкретного набора наблюдений. В другой клинике, в другом городе, при иной распространенности исхода этот порог потеряет смысл, он будет другой. Это не то, что легко проверяется, это просто элементарно понятно. Поэтому попытки искать «универсальный» порог не просто бесполезны, а вредны! Они создают иллюзию точности там, где нужно говорить о вероятности и неопределенности.
Калибруйте модели! Хорошо калиброванная модель не нуждается в пороге. Она сообщает вероятность события — например, риск осложнения 0.82, и этим исчерпывает задачу предсказания. Решение (лечить, госпитализировать, наблюдать) должно приниматься не статистикой, а клиническим контекстом и ценой ошибки. Порог в этом смысле это не сакральное знание, а договор между вероятностью и вашим действием, зависящий от многих условий, которые вы не контролируете.
Представьте, что метеорологическая модель говорит: «Завтра дождь с вероятностью 80%.» Все, это и есть результат. Информация исчерпывающая. С вероятностью 80% дождь будет, с вероятностью 20% — нет. Вы, человек, принимаете решение — взять зонт или рискнуть и оставить его дома. Это и есть суть вероятностного мышления.
Но вместо этого вас учат придумать порог, например 60%. Если прогноз выше порога — значит, «дождь». Если ниже — «солнце». Дальше вычисляют чувствительность и специфичность прогноза дождя при этом пороге, а потом обсуждают, насколько «точна» модель. Это абсурд, ведь сам порог — не часть модели, а человеческая условность! Завтра вы выберете порог 70% и получите другие метрики. Модель не изменилась, изменилась ваша интерпретация.
Использовать «оптимальный порог» из одной выборки — все равно что измерить температуру в одной комнате и объявить ее нормой для всей планеты. Это не наука, а методологический самообман, маскирующий неопределенность под цифры.
🔥2
Про относительный риск, абсолютный риск и NNT
Мы частенько можем слышать с трибун, видеть в презентацих и читать в публикациях заявления об эффективности того или иного лечения в виде снижения риска, например прогрессии или рецидива. Но заявления о снижении риска, например на 50%, часто вводят в заблуждение. Когда цифры большие - задумайтесь! За такими громкими цифрами обычно стоит снижение относительного риска (RRR), которое способно произвести впечатление, но не отражает реальной клинической пользы. Чтобы понять истинное значение результата, необходимо рассматривать его вместе с абсолютным снижением риска (ARR) и числом пациентов, которых нужно пролечить для предотвращения одного события (NNT).
Представим клиническое исследование нового адъювантного препарата при раке молочной железы. В отчете указано, что применение препарата снижает риск рецидива на 50%. На первый взгляд, это кажется значительным успехом. Однако при более внимательном рассмотрении становится ясно, что речь идет об относительном показателе. Если в контрольной группе рецидив наблюдался у 20 из 100 пациенток, а в группе лечения — у 10, относительное снижение риска действительно составляет 50%. Но абсолютное снижение риска в этом случае равно лишь 10% (20% минус 10%). Именно этот показатель отражает реальную клиническую выгоду. Для более практической оценки используется показатель NNT (number needed to treat). В данном примере он равен 1 / 0,10 = 10. Это означает, что для предотвращения одного рецидива необходимо пролечить десять пациенток. Такой результат нельзя назвать незначительным, однако он демонстрирует, насколько важно различать статистический эффект и клиническую значимость.
Относительное снижение риска часто используется в публикациях и маркетинговых материалах для усиления восприятия эффективности терапии. Абсолютное снижение риска дает более точное представление о реальном влиянии лечения на исходы. Показатель NNT, в свою очередь, помогает врачу оценить практическую ценность вмешательства и объяснить пациенту ожидаемую пользу в понятной форме. Таким образом, интерпретируя результаты клинических исследований, необходимо выходить за рамки эффектных формулировок и анализировать их с учетом абсолютных показателей. Только так можно объективно оценить клиническую значимость терапии и принять взвешенное решение в интересах пациента.
Мы частенько можем слышать с трибун, видеть в презентацих и читать в публикациях заявления об эффективности того или иного лечения в виде снижения риска, например прогрессии или рецидива. Но заявления о снижении риска, например на 50%, часто вводят в заблуждение. Когда цифры большие - задумайтесь! За такими громкими цифрами обычно стоит снижение относительного риска (RRR), которое способно произвести впечатление, но не отражает реальной клинической пользы. Чтобы понять истинное значение результата, необходимо рассматривать его вместе с абсолютным снижением риска (ARR) и числом пациентов, которых нужно пролечить для предотвращения одного события (NNT).
Представим клиническое исследование нового адъювантного препарата при раке молочной железы. В отчете указано, что применение препарата снижает риск рецидива на 50%. На первый взгляд, это кажется значительным успехом. Однако при более внимательном рассмотрении становится ясно, что речь идет об относительном показателе. Если в контрольной группе рецидив наблюдался у 20 из 100 пациенток, а в группе лечения — у 10, относительное снижение риска действительно составляет 50%. Но абсолютное снижение риска в этом случае равно лишь 10% (20% минус 10%). Именно этот показатель отражает реальную клиническую выгоду. Для более практической оценки используется показатель NNT (number needed to treat). В данном примере он равен 1 / 0,10 = 10. Это означает, что для предотвращения одного рецидива необходимо пролечить десять пациенток. Такой результат нельзя назвать незначительным, однако он демонстрирует, насколько важно различать статистический эффект и клиническую значимость.
Относительное снижение риска часто используется в публикациях и маркетинговых материалах для усиления восприятия эффективности терапии. Абсолютное снижение риска дает более точное представление о реальном влиянии лечения на исходы. Показатель NNT, в свою очередь, помогает врачу оценить практическую ценность вмешательства и объяснить пациенту ожидаемую пользу в понятной форме. Таким образом, интерпретируя результаты клинических исследований, необходимо выходить за рамки эффектных формулировок и анализировать их с учетом абсолютных показателей. Только так можно объективно оценить клиническую значимость терапии и принять взвешенное решение в интересах пациента.
👍2
Клинические прогностические модели в онкологии: вызовы и рекомендации
Мир сегодня буквально переполнен моделями машинного обучения в онкологии, но реальное их применение в клинике по-прежнему остается редкостью. Проблема не в недостатке нейросетей. Их как раз с избытком. Настоящий дефицит — методологическая строгость, честные и репрезентативные данные, участие клиницистов и, если уж на то пошло, банальный здравый смысл. Модели множатся, как клетки при опухоли, но большинство так и остаются «в пробирке», в виде публикаций и демонстраций на конференциях. Вместо того чтобы делать очередную «революционную» модель, стоит задать себе простой вопрос: а нельзя ли доработать уже существующее? Ведь если инструмент есть, логичнее его улучшить, чем изобретать новый, пренебрегая уже проделанной работой.
Огромный пробел — вовлечение тех, кто будет с этими моделями реально работать. Без врачей и пациентов алгоритм превращается в игрушку исследователя. Модель может блестяще предсказывать выживаемость на тестовой выборке, но что она реально меняет у постели больного? Как ее предсказания влияют на клиническое решение? Без понимания этого любая модель — как магнитно-резонансный томограф, включенный в пустой комнате; технология есть, пациента нет.
Другой важный момент — протокол исследования. Без четко зафиксированного публичного протокола разработку легко подогнать под желаемый результат, исключить неудобные случаи, выбрать метрики задним числом. Машинное обучение - гибкая технология, но гибкость требует дисциплины. То же самое касается дизайна исследования. ML-модели «жадны» до данных, и попытки строить их на малых выборках — путь к переобучению и обманчивой уверенности. А потом в публикации начинается хрестоматийное: «размер выборки был ограничен…», хотя должен был быть рассчитан заранее, как это делается в клинических испытаниях.
Имеет значение и то, чьи данные используются. Модель, обученная на однородной когорте, часто не работает в реальной многоликой популяции. Она может показывать великолепные метрики в рамках ретроспективного исследования, но окажется абсолютно бесполезной в отделении интенсивной терапии районной больницы. Методы балансировки классов, такие как SMOTE, это не панацея и нередко дают ложное ощущение контроля над ситуацией. Репрезентативность — не технический параметр, а этический вопрос. Это же касается и прозрачности происхождения данных. Если источник неизвестен, если процесс очистки и подготовки не описан, перед нами не медицинский инструмент, а черный ящик. И да, пропущенные значения — не повод исключать пациентов. Реальные клинические данные всегда неполные, и модель должна уметь с этим работать. Множественная иммутация и другие методы — не украшения, а необходимость.
А еще — валидация. Внутренняя — только разминка. Настоящая проверка — внешний тест на новых пациентах в других учреждениях. Часто именно на этом этапе модель проявляет свои слабости словно ребенок, впервые вышедший из дома. А дальше вопрос пользы. ROC-AUC — всего лишь цифра. Она ничего не говорит о калибровке, о полезности для врача, о том, станет ли пациенту лучше. Если модель не помогает принимать решения, улучшающие исход, то кому она вообще нужна?
Наконец, реализация. Даже лучшая модель — не конец пути, а его начало. Ее нужно внедрить, объяснить, как с ней работать, обучить персонал, отслеживать эффективность, понимать, как она «стареет» со временем и требует обновления. Медицина — живой организм, а не статичная лаборатория.
Машинное обучение в онкологии — не волшебная таблетка. Это инструмент. И как любой инструмент, он требует дисциплины, этики, статистического мастерства и глубокого понимания клинического контекста. Без этого он — не помощник, а цифровая иллюзия, красивая снаружи, но бесполезная внутри.
Источник ...
Мир сегодня буквально переполнен моделями машинного обучения в онкологии, но реальное их применение в клинике по-прежнему остается редкостью. Проблема не в недостатке нейросетей. Их как раз с избытком. Настоящий дефицит — методологическая строгость, честные и репрезентативные данные, участие клиницистов и, если уж на то пошло, банальный здравый смысл. Модели множатся, как клетки при опухоли, но большинство так и остаются «в пробирке», в виде публикаций и демонстраций на конференциях. Вместо того чтобы делать очередную «революционную» модель, стоит задать себе простой вопрос: а нельзя ли доработать уже существующее? Ведь если инструмент есть, логичнее его улучшить, чем изобретать новый, пренебрегая уже проделанной работой.
Огромный пробел — вовлечение тех, кто будет с этими моделями реально работать. Без врачей и пациентов алгоритм превращается в игрушку исследователя. Модель может блестяще предсказывать выживаемость на тестовой выборке, но что она реально меняет у постели больного? Как ее предсказания влияют на клиническое решение? Без понимания этого любая модель — как магнитно-резонансный томограф, включенный в пустой комнате; технология есть, пациента нет.
Другой важный момент — протокол исследования. Без четко зафиксированного публичного протокола разработку легко подогнать под желаемый результат, исключить неудобные случаи, выбрать метрики задним числом. Машинное обучение - гибкая технология, но гибкость требует дисциплины. То же самое касается дизайна исследования. ML-модели «жадны» до данных, и попытки строить их на малых выборках — путь к переобучению и обманчивой уверенности. А потом в публикации начинается хрестоматийное: «размер выборки был ограничен…», хотя должен был быть рассчитан заранее, как это делается в клинических испытаниях.
Имеет значение и то, чьи данные используются. Модель, обученная на однородной когорте, часто не работает в реальной многоликой популяции. Она может показывать великолепные метрики в рамках ретроспективного исследования, но окажется абсолютно бесполезной в отделении интенсивной терапии районной больницы. Методы балансировки классов, такие как SMOTE, это не панацея и нередко дают ложное ощущение контроля над ситуацией. Репрезентативность — не технический параметр, а этический вопрос. Это же касается и прозрачности происхождения данных. Если источник неизвестен, если процесс очистки и подготовки не описан, перед нами не медицинский инструмент, а черный ящик. И да, пропущенные значения — не повод исключать пациентов. Реальные клинические данные всегда неполные, и модель должна уметь с этим работать. Множественная иммутация и другие методы — не украшения, а необходимость.
А еще — валидация. Внутренняя — только разминка. Настоящая проверка — внешний тест на новых пациентах в других учреждениях. Часто именно на этом этапе модель проявляет свои слабости словно ребенок, впервые вышедший из дома. А дальше вопрос пользы. ROC-AUC — всего лишь цифра. Она ничего не говорит о калибровке, о полезности для врача, о том, станет ли пациенту лучше. Если модель не помогает принимать решения, улучшающие исход, то кому она вообще нужна?
Наконец, реализация. Даже лучшая модель — не конец пути, а его начало. Ее нужно внедрить, объяснить, как с ней работать, обучить персонал, отслеживать эффективность, понимать, как она «стареет» со временем и требует обновления. Медицина — живой организм, а не статичная лаборатория.
Машинное обучение в онкологии — не волшебная таблетка. Это инструмент. И как любой инструмент, он требует дисциплины, этики, статистического мастерства и глубокого понимания клинического контекста. Без этого он — не помощник, а цифровая иллюзия, красивая снаружи, но бесполезная внутри.
Источник ...
Про медиаторный (медиационный) анализ (дочитайте до конца, чтобы было понятно)
Медиаторный анализ — метод количественной оценки, который позволяет понять, через какие другие факторы изучаемый фактор (экспозиция) оказывает влияние на исход. Другими словами это расширение классического регрессионого анализа. Он особенно полезен в исследованиях, где важно не только установить наличие ассоциации между переменными, но и понять, каким путем реализуется эта связь. В классической регрессионной модели мы просто фиксируем общее влияние фактора на исход, однако медиаторный анализ дает возможность разложить это влияние на прямое и опосредованное — через другой фактор или факторы, так называемый медиатор(ы). Далее я буду описывать этот статистический метод на собственных данных (пациенты в отделении реанимации), которые я уже использовал ранее при построении AFT-модели выживаемости здесь.
Классическая структура медиаторного анализа включает три переменные: экспозицию (например, гипоксемию), медиатор (например, уровень сознания по шкале Глазго) и исход (например, летальность в отделении реанимации). Экспозиция может влиять на медиатор, медиатор также влияет на исход, и экспозиция может также действовать на исход напрямую, минуя медиатор. С помощью медиаторного анализа можно количественно оценить, какая часть общего влияния экспозиции (в нашем случае гипоксемии) на исход проходит через медиатор, а какая остается прямой. Эти компоненты называют соответственно ACME (Average Causal Mediation Effect — средний опосредованный эффект) и ADE (Average Direct Effect — средний прямой эффект). Другими словами мы можем количественно оценить степень влияния гипоксемии на летальность как в виде прямого эффекта, так и в виде опосредованного через угнетение сознания.
Медиаторный анализ — метод количественной оценки, который позволяет понять, через какие другие факторы изучаемый фактор (экспозиция) оказывает влияние на исход. Другими словами это расширение классического регрессионого анализа. Он особенно полезен в исследованиях, где важно не только установить наличие ассоциации между переменными, но и понять, каким путем реализуется эта связь. В классической регрессионной модели мы просто фиксируем общее влияние фактора на исход, однако медиаторный анализ дает возможность разложить это влияние на прямое и опосредованное — через другой фактор или факторы, так называемый медиатор(ы). Далее я буду описывать этот статистический метод на собственных данных (пациенты в отделении реанимации), которые я уже использовал ранее при построении AFT-модели выживаемости здесь.
Классическая структура медиаторного анализа включает три переменные: экспозицию (например, гипоксемию), медиатор (например, уровень сознания по шкале Глазго) и исход (например, летальность в отделении реанимации). Экспозиция может влиять на медиатор, медиатор также влияет на исход, и экспозиция может также действовать на исход напрямую, минуя медиатор. С помощью медиаторного анализа можно количественно оценить, какая часть общего влияния экспозиции (в нашем случае гипоксемии) на исход проходит через медиатор, а какая остается прямой. Эти компоненты называют соответственно ACME (Average Causal Mediation Effect — средний опосредованный эффект) и ADE (Average Direct Effect — средний прямой эффект). Другими словами мы можем количественно оценить степень влияния гипоксемии на летальность как в виде прямого эффекта, так и в виде опосредованного через угнетение сознания.
В своем исследовании я проанализировал, каким образом гипоксемия влияет на летальность у пациентов в отделении реанимации, и может ли уровень сознания быть промежуточным звеном в этой связи. В качестве экспозиции использовалась переменная «гипоксемия», как бинарный показатель нарушения оксигенации (да/нет). В качестве медиатора — уровень сознания, выраженный тоже бинарно как снижение по шкале Глазго ниже 15 баллов. Исходом была внутрибольничная летальность. Согласно патофизиологической логике, гипоксемия может вызывать гипоксическое поражение головного мозга, что приводит к снижению уровня сознания. Угнетение сознания, в свою очередь, увеличивает риск неблагоприятного исхода, в том числе за счет развития дыхательной недостаточности, аспирации, нарушения витальных функций.
Сначала была построена обычная регрессионная модель медиатора (модель1), в которой анализировалась связь гипоксемии (X) с нарушением сознания (Y) с учетом возраста и пола. Гипоксемия оказалась статистически значимым предиктором снижения по шкале Глазго, с отношением шансов 1.61, что подтверждает первую предпосылку медиаторного анализа (гипоксемия повышает риск угнетения сознания). Затем была построена модель2 исхода (летальность), в которую входили гипоксемия, шкала Глазго, возраст и пол. И гипоксемия, и снижение сознания продемонстрировали независимую статистически значимую связь с летальностью. На это подготовительные регрессионные модели завершены.
Следующим этапом стал собственно сам медиаторный анализ, выполненный с использованием бутстрэп-метода с 1000 симуляциями.
Его результаты показали, что 41% общего влияния гипоксемии на риск летального исхода опосредовано через снижение уровня сознания. Остальные 59% приходятся на прямой эффект гипоксемии, не зависящий от уровня сознания. Все оценки — прямого, опосредованного и общего эффектов были статистически значимыми с доверительными интервалами, не включающими ноль.
Таким образом, проведенный анализ продемонстрировал, что гипоксемия повышает риск смерти у пациентов в реанимации как напрямую, так и через угнетение сознания. Шкала Глазго в данном контексте выступает как важный патофизиологический и прогностический индикатор, отражающий один из ключевых механизмов, через который гипоксия ведет к летальному исходу. Возможно, это очевидный пример, но он прост для понимания медиаторного анализа. Часто далеко не всегда можно понять причинно-следственную связь между факторами в регрессионных моделях и медиаторный анализ может помочь вам в этом разобраться.
Сначала была построена обычная регрессионная модель медиатора (модель1), в которой анализировалась связь гипоксемии (X) с нарушением сознания (Y) с учетом возраста и пола. Гипоксемия оказалась статистически значимым предиктором снижения по шкале Глазго, с отношением шансов 1.61, что подтверждает первую предпосылку медиаторного анализа (гипоксемия повышает риск угнетения сознания). Затем была построена модель2 исхода (летальность), в которую входили гипоксемия, шкала Глазго, возраст и пол. И гипоксемия, и снижение сознания продемонстрировали независимую статистически значимую связь с летальностью. На это подготовительные регрессионные модели завершены.
Следующим этапом стал собственно сам медиаторный анализ, выполненный с использованием бутстрэп-метода с 1000 симуляциями.
mediate(модель1, модель2, treat = "Гипоксемия", mediator = "кома Глазго", boot = TRUE, sims = 1000)Его результаты показали, что 41% общего влияния гипоксемии на риск летального исхода опосредовано через снижение уровня сознания. Остальные 59% приходятся на прямой эффект гипоксемии, не зависящий от уровня сознания. Все оценки — прямого, опосредованного и общего эффектов были статистически значимыми с доверительными интервалами, не включающими ноль.
Таким образом, проведенный анализ продемонстрировал, что гипоксемия повышает риск смерти у пациентов в реанимации как напрямую, так и через угнетение сознания. Шкала Глазго в данном контексте выступает как важный патофизиологический и прогностический индикатор, отражающий один из ключевых механизмов, через который гипоксия ведет к летальному исходу. Возможно, это очевидный пример, но он прост для понимания медиаторного анализа. Часто далеко не всегда можно понять причинно-следственную связь между факторами в регрессионных моделях и медиаторный анализ может помочь вам в этом разобраться.
🔥3
Когда можно получить ну очень маленькие p-уровни значимости
В одной из статей Связь уровней циркулирующих липидов крови с частотой ишемической болезни сердца я наткнулся на расчет HR у различного рода предикторов ИБС и очень маленькие p-уровни значимости. Минимальный из них равнялся менее 1e-300 (1 в минус 300 степени). Это не ошибка.Такие сверхмалые p-значения абсолютно реальны и возникают в ситуациях, когда одновременно присутствуют очень большая выборка (в исследовании более 300 тыс. участников), высокая точность оценки эффекта и использование некоторых статистических тестов. В Cox-модели p-уровень обычно основано на статистике Вальда, лог-ранковом тесте или тесте отношения правдоподобия; все они сводятся к вычислению отношения b/SE(b), где b — логарифм отношения рисков, а SE — его стандартная ошибка. В выборке из сотен тысяч участников стандартная ошибка становится исключительно маленькой, поэтому даже умеренный эффект, например HR=1.59, приводит к огромной Z-статистике и как следствие к настолько малым p-уровням занчимости, что компьютер просто не может их представить и выводит как менее 1e-300 или даже 0. Это не свидетельствует о силе ассоциации — это лишь отражение колоссальной мощности исследования и очень высокой точности оценок. В эпидемиологии, особенно в крупных когортах обследованных, подобные значения p-уровней являются нормой и встречаются регулярно.
В одной из статей Связь уровней циркулирующих липидов крови с частотой ишемической болезни сердца я наткнулся на расчет HR у различного рода предикторов ИБС и очень маленькие p-уровни значимости. Минимальный из них равнялся менее 1e-300 (1 в минус 300 степени). Это не ошибка.Такие сверхмалые p-значения абсолютно реальны и возникают в ситуациях, когда одновременно присутствуют очень большая выборка (в исследовании более 300 тыс. участников), высокая точность оценки эффекта и использование некоторых статистических тестов. В Cox-модели p-уровень обычно основано на статистике Вальда, лог-ранковом тесте или тесте отношения правдоподобия; все они сводятся к вычислению отношения b/SE(b), где b — логарифм отношения рисков, а SE — его стандартная ошибка. В выборке из сотен тысяч участников стандартная ошибка становится исключительно маленькой, поэтому даже умеренный эффект, например HR=1.59, приводит к огромной Z-статистике и как следствие к настолько малым p-уровням занчимости, что компьютер просто не может их представить и выводит как менее 1e-300 или даже 0. Это не свидетельствует о силе ассоциации — это лишь отражение колоссальной мощности исследования и очень высокой точности оценок. В эпидемиологии, особенно в крупных когортах обследованных, подобные значения p-уровней являются нормой и встречаются регулярно.
🔥1
🗣️ На сайте mdcopilot.ru запущено приложение статИИстик - статистический анализ прямо в браузере бесплатно с поддержкой ИИ. Количество методов статистического анализа планируется расширять.
Любые ваши пожелания пишите @glivec
Любые ваши пожелания пишите @glivec
🔥5
🗣️ В сервисе статИИстик при выполнении логистической регрессии реализовано построение калибровочной кривой через кросс-валидацию с расчетом ее количественных характеристик. Оценка калибровки модели является методологически более значимой метрикой по сравнению с ROC-анализом, поскольку позволяет непосредственно судить о соответствии предсказанных вероятностей наблюдаемым исходам.
👍3🔥1
🗣️ В приложение статИИстик добавлен раздел «Справочные материалы», включающий более 200 постов, посвященных вопросам статистики и анализа данных, ранее опубликованных в данной группе и не только. Раздел оснащен удобной системой поиска через текстовую строку, разделы и теги.
👍2🔥1
🗣️ Все графики в приложении статИИстик теперь сохраняются в SVG формате, а это значит вы можете увеличивать их до любых размеров без потери качества в браузере или прямо в Word. Кроме того вы можете изменить любые цвета прямо в коде или в сторонних приложениях (пока для продвинутых пользователей, кто умеет работать с SVG графикой).
🔥3👍2
🗣️ В приложение статИИстик добавлен регрессионный анализ Кокса с построением dose–response кривых, позволяющих оценить характер взаимосвязи между значением предиктора и величиной отношения рисков (HR), включая линейные и нелинейные зависимости. Данный тип визуализации имеет принципиальное значение, поскольку связь между уровнем предиктора и риском наступления события нередко носит нелинейный характер. Так, при сепсисе как гипотермия, так и гипертермия у пациентов ассоциируются с повышенным риском летального исхода. Кроме того, использование таких графиков позволяет наглядно идентифицировать потенциальное пороговое значение предиктора в случаях, когда принимается решение о его определении и последующем применении в практике.
👍3🔥1
Про точность диагностических тестов и истинную вероятность заболевания
Как диагностический тест с заявленной точностью 99% при его положительном результате может соответствовать лишь приблизительно 9% вероятности наличия заболевания? Этот парадокс иллюстрирует принципиальное различие между специфичностью теста и его положительной прогностической ценностью. Чувствительность и специфичность являются внутренними, неизменными характеристиками диагностического метода и не учитывают распространенность заболевания в популяции. Напротив, положительная прогностическая ценность (PPV), отражающая вероятность того, что положительный результат действительно указывает на наличие заболевания, напрямую зависит от распространенности патологии и потому имеет для клинической практики большее значение, чем показатели чувствительности и специфичности. Вместе с тем ее оценка представляет большую сложность, поскольку требует клинического представления о вероятности заболевания именно у конкретного пациента. При низкой распространенности заболевания даже высококачественный тест будет давать преобладание ложноположительных результатов. По этой причине скрининг пациентов с низким риском может приводить к значительному числу ложноположительных находок и, как следствие, к потенциальному вреду. Различие между специфичностью и положительной прогностической ценностью является одним из ключевых концептов современной медицины. Для его лучшего понимания целесообразно использовать расчетные модели, варьируя показатели распространенности заболевания и наблюдая, насколько существенно меняются диагностические характеристики теста в зависимости от изучаемой популяции.
Вы можете самостоятельно поэкспериментировать с различными метриками диагностического теста, указывая разную распространенность заболевания, в калькуляторе по ссылке: https://mdcopilot.ru/api/statistic/prevalence.html
Как диагностический тест с заявленной точностью 99% при его положительном результате может соответствовать лишь приблизительно 9% вероятности наличия заболевания? Этот парадокс иллюстрирует принципиальное различие между специфичностью теста и его положительной прогностической ценностью. Чувствительность и специфичность являются внутренними, неизменными характеристиками диагностического метода и не учитывают распространенность заболевания в популяции. Напротив, положительная прогностическая ценность (PPV), отражающая вероятность того, что положительный результат действительно указывает на наличие заболевания, напрямую зависит от распространенности патологии и потому имеет для клинической практики большее значение, чем показатели чувствительности и специфичности. Вместе с тем ее оценка представляет большую сложность, поскольку требует клинического представления о вероятности заболевания именно у конкретного пациента. При низкой распространенности заболевания даже высококачественный тест будет давать преобладание ложноположительных результатов. По этой причине скрининг пациентов с низким риском может приводить к значительному числу ложноположительных находок и, как следствие, к потенциальному вреду. Различие между специфичностью и положительной прогностической ценностью является одним из ключевых концептов современной медицины. Для его лучшего понимания целесообразно использовать расчетные модели, варьируя показатели распространенности заболевания и наблюдая, насколько существенно меняются диагностические характеристики теста в зависимости от изучаемой популяции.
Вы можете самостоятельно поэкспериментировать с различными метриками диагностического теста, указывая разную распространенность заболевания, в калькуляторе по ссылке: https://mdcopilot.ru/api/statistic/prevalence.html
👍1🔥1