статИИстик
183 subscribers
75 photos
3 videos
162 links
О медицинской статистике и не только
Личные сообщения @glivec
Download Telegram
Про bias (предвзятость / смещенность)

Под предвзятостью в статистике понимается систематическая ошибка или искажение в способе сбора, анализа или интерпретации данных, приводящие к неточным или вводящим в заблуждение результатам. Предвзятость может возникать по разным причинам и влиять как на процесс выборки, так и на анализ данных. Это может привести к результатам, которые неточно представляют истинную совокупность или изучаемое явление.

Вот некоторые распространенные виды предвзятости в статистике, которые часто могут дополнять друг друга:

⚠️ Предвзятость сбора данных. Возникает, когда выборка, используемая для анализа, не является репрезентативной для всей генеральной совокупности. Определенные группы или отдельные лица с большей вероятностью будут включены в выборку, что приведет к результатам, которые не будут хорошо обобщены на всю совокупность. Например, исследователь сознательно включит в выборку пациентов, у которых были хорошие результаты лечения, чтобы не дискредитировать лекарственный препарат или метод лечения. Другой пример, когда дизайн исследования подразумевает опрос респондентов, но не все возможные респонденты принимают в участие в исследовании, отвечают на вопросы или все ответы учитываются.

⚠️ Предвзятость измерения. Возникает при наличии неточностей или ошибок в способах сбора, регистрации или измерения данных. Это может быть следствием неисправности приборов, человеческого фактора или несоответствия методов измерения поставленным задачам. Можно считать это разновидностью предвзятости сбора данных.

⚠️ Предвзятость выборки. Метод отбора участников исследования не обеспечивает равных шансов для включения в него всех членов популяции, может возникнуть предвзятость выборки. Это приводит к получению нерепрезентативной выборки. Например, в отсуствии рандомизации.

⚠️ Предвзятость наблюдателя. Возникает, когда ожидания или убеждения исследователя влияют на интерпретацию результатов. Это может привести к непреднамеренным ошибкам при сборе или анализе данных. Например, стремление получить нужный результат приводит к искусственному искажению набора данных.

⚠️ Предвзятость при публикации. Возникает, когда принято публиковать исследования со статистически значимыми или положительными результатами, а исследования с незначимыми или отрицательными результатами публикуются реже и не публикуются совсем. Это может создать искаженное представление об общем объеме доказательств по теме.

⚠️ Сбивающие факторы. Ошибка происходит, когда третья переменная (конфаундер) влияет на независимые и зависимые переменные в исследовании, создавая ложную связь между ними. Контроль за сбивающими переменными важен для того, чтобы избежать необъективных результатов.

Необъективность статистических данных может существенно повлиять на достоверность и надежность результатов исследования. Для уменьшения bias исследователи должны тщательно планировать свои исследования, использовать методы случайной выборки (в т.ч. рандомизацию), применять стандартизированные методики измерений, прозрачно описывать свои данные, манипуляции с ними, методы анализа и возможные ограничения. Также очень важно критически оценивать исследования и их bias при интерпретации статистических результатов.
👍1
🙈 Размер выборки не учитывается при разработке модели прогнозирования

Группа уважаемых статистиков выполнила систематический обзор 119 публикаций, в которых были описаны медицинские прогностические модели. Только 8% исследований указали и обосновали способ расчета размера выборки для своих моделей. При этом в 73% из них размер выборки не соответствовал минимально необходимому (по методу Riley et al.). Авторы призывают исследователей обосновывать, выполнять и сообщать о методах расчета размера выборки при создании прогностических моделей.
Источник: https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-023-02008-1
Про ассоциацию, корреляцию и причинно-следственную связь

"Корреляция не подразумевает причинно-следственной связи". Это краеугольный камень в анализе данных!

Ассоциация. По своей сути ассоциация означает, что между двумя переменными существует некоторая связь. Это не говорит нам о силе или направлении связи, а только о том, что связь существует. Примеры ассоциации: продажа мороженого и посещение бассейна, размер обуви и способность к чтению у детей. В обоих случаях связь есть, но она не прямая. В первом случае она обусловлена жаркой погодой, во втором - возрастом ребенка.

Корреляция. Корреляция, являющаяся более глубоким понятием, чем ассоциация, определяет силу и направление линейной связи между двумя переменными. Она измеряется коэффициентом корреляции (часто "r"), который варьируется от -1 до 1. Понимание корреляции: r = 1 - идеальная положительная корреляция, r = -1 - идеальная отрицательная корреляция, r = 0 - отсутствие линейной корреляции. Однако значение r, близкое к 0, не всегда означает отсутствие связи; связь может быть нелинейной.

Причинно-следственная связь (Causation). Причинно-следственная связь означает, что изменение одной переменной вызывает изменение другой. Ее труднее всего доказать и для этого требуются контролируемые эксперименты, например, рандомизированное контролируемое клиническое исследование, исключение скрытых переменных. Многие факторы могут исказить взаимосвязь. Например, если вы обнаружили корреляцию между продажами мороженого и нападениями акул, это не означает, что одно является причиной другого. И то, и другое увеличивается летом в жаркую погоду - скрытая переменная! Корреляция (Correlation) ≠ Причинно-следственная связь (Causation).

Неправильное понимание этих концепций может привести к ошибочным выводам. При работе с данными и выводами тщательно анализируйте представленную взаимосвязь. Спрашивайте себя, не могут ли здесь играть роль другие факторы. Ищите экспериментальные доказательства, прежде чем соглашаться с утверждениями о причинно-следственной связи. Понимание нюансов между ассоциацией, корреляцией и причинно-следственной связью - не просто семантика. Оно является основополагающим для научной грамотности, принятия взвешенных решений и критического мышления.
Про тесты Вальда, отношения правдоподобия, AIC и BIC при создании прогностических моделей

Тестирование параметров модели необходимо для подтверждения значимости переменных, входящих в ее состав, а также для сравнения моделей между собой. Когда мы говорим о "тестировании параметров модели", мы, по сути, спрашиваем "оказывает ли этот конкретный фактор (ковариата) существенное влияние на нашу модель или прогноз?".

Тест Вальда. Использует отношение значения регрессионного коэффициента параметра к его стандартной ошибке. Это как бы измерение того, на сколько стандартных наша оценка отклоняется от нуля. Полученное соотношение сравнивается с критическим значением из соответствующего распределения, чтобы определить, является ли параметр статистически значимым. Если абсолютное значение рассчитанной статистики Вальда больше критического значения из эталонного распределения, то нулевая гипотеза отвергается и делается вывод о том, что параметр статистически значим. Критическое значение зависит от желаемого уровня значимости (например, 0.1). Тест прост в вычислениях и хорошо работает для больших выборок. Может давать сбои при малых выборках.

Тест отношения правдоподобия. Сравнивает правдоподобие (пригодность) двух вложенных друг в друга моделей - модели с параметром и модели без параметра. Очень надежен и считается устойчивым, даже при малых выборках. Считается золотым стандартом для оценки вложенных (nested) моделей. Вложенная модель - регрессионная модель, которая содержит подмножество предикторных переменных другой регрессионной модели.

AIC (информационный критерий Акаике) позволяет сравнивать несколько моделей, построенных на одних и тех же данных, поощряя хорошую подгонку модели к данным, но штрафуя за лишние параметры, что позволяет сбалансировать подгонку и простоту при выборе параметров. Более низкие значения AIC свидетельствуют о лучшем компромиссе между подгонкой и простотой. Основная идея AIC заключается в том, чтобы найти модель, которая хорошо соответствует данным, при этом накладывая штраф на количество параметров в модели. Это позволяет избежать чрезмерной подгонки, когда сложная модель отражает шум в данных, а не основные закономерности.

BIC (Байесовский информационный критерий). Как и AIC, BIC направлен на достижение баланса между пригодностью модели и ее сложностью, однако для сложных моделей он вводит более сильный штраф.
Ключевое различие между AIC и BIC заключается в штрафной части формулы для рассчета. Более низкие значения BIC свидетельствуют о лучшем компромиссе между подгонкой и простотой.

Построение модели носит итеративный характер. Вы добавляете переменную, тестируете модель, а затем решаете, оставить переменную или отбросить. Тесты помогают принимать ключевые решения в данном контексте. В тоже время следует помнить, что статистическая значимость - это одно, а реальная значимость - совсем другое. Убедитесь, что значимый параметр также имеет практическое значение для вашей модели.
👍2
Про типы наборов данных при создании прогностических моделей

При создании прогностической модели любым методом требуется предварительное разделение данных на несколько типов. Классическая картина - 3 различных набора данных: тренировочный (обучающий), валидационный и тестовый.

Тестовый набор. Первое, что следует сделать на этом этапе - "забыть" о существовании тестового набора (отложить его в сторону). Тестовые данные обычно составляют 10-20% от общего набора. Размер выборки для тестирования должен высчитываться с использованием методов определения минимального размера вборки для создания прогностических моделей.

Обучающий набор данных. Никаких других данных за пределами этого набора не существует. Эти данные используются для каждого нового эксперимента, преобразования и принятия решений.

Валидационный набор. Эти данные используются для расчета эффективности вашей модели и принятия решения о том, как ее улучшить (~10-20% от общего с обучающим набором объема данных). Валидационный датасет дает обратную связь. Вы можете использовать эту обратную связь для улучшения своей модели.

Если данных мало:
Не создавать валидационный набор данных. Валидационные данные должны содержать не менее 100 событий (эмпирическое правило), чтобы быть значимыми. Вместо этого можно использовать k-кратную перекрестную валидацию или бутстрэппинг.
Не создавать тестовый набор данных - использовать внешний датасет в рамках внешней валидации.

Вот итерационный процесс, которому нужно следовать:
1. Обучить модель на обучающем наборе
2. Оценить качество модели на валидационном наборе
3. Изменить параметрым модели для ее улучшения
4. Снова оценить ее на валидационном наборе, снова улучшить и т.д.

Через некоторое время модель неизбежно начнет подстраиваться под валидационный набор (переобучаться). В этом случае валидационный набор станет бесполезным.

Что делать:
Через несколько итераций снова смешать валидационный и обучающий набор и повторно разделить его случайным образом
Использовать k-кратную перекрестную валидацию или бутстрэппинг

Еще про тестовый набор:
До самого конца вы никогда не смотрите на свои тестовые данные.
Вы никогда не используете их для анализа или преобразований.
Никогда не принимайте решений, влияющих на вашу модель, используя тестовые данные.
Вы относитесь к тестовым данным так, как будто их не существует.
Цель тестового набора - обеспечить окончательную, несмещенную оценку эффективности вашей модели.
Хороший тестовый набор даст вам результаты, аналогичные тем, которые вы ожидаете получить при обработке реальных данных.

Многие запускают свою модель на тестовом наборе и обнаруживают, что модель не очень хороша. Они возвращаются назад и вносят изменения в модель до тех пор, пока производительность не улучшится. Ничего страшного, кроме того, что они снова используют тот же тестовый набор! Эффективность тестового набора уменьшается пропорционально количеству его использования. Вскоре тестовый набор перестанет быть точным показателем того, насколько хороша ваша модель. Используйте тестовые данные один раз!
Про метод сопоставления оценок склонности (Propensity Score Matching, PSM)

Золотым стандартом сравнительных исследований являются рандомизированные. В таком идеальном сценарии пациенты случайным образом распределяются по группам исследования (например, лечение против контроля). Случайность распределения обеспечивает сопоставимость групп. Однако во многих реальных исследованиях мы не имеем такой возможности. Поэтому PSM - наш спаситель!

"Оценка склонности" - вероятность того, что пациент попадет в ту или иную группу сравнения, например, получит лечение, который высчитывается на основе его наблюдаемых характеристик. Чтобы рассчитать эту вероятность мы создаем прогностическую модель, например, логистической регрессии или другую и пропускаем через нее всю выборку. После того как каждый пациент получил свою оценку, мы объединяем пациентов с одинаковыми оценками, что обеспечивает более сбалансированное сравнение. После сопоставления, группы лечения и контроля становятся более похожими друг на друга по наблюдаемым характеристикам. Это уменьшает смещение, гарантируя, что эффект, который мы видим, скорее всего обусловлен лечением, а не какими-то скрытыми различиями. Магия PSM не безгранична. Она уравновешивает только то, что видит. Если существует ненаблюдаемый фактор, влияющий на выбор лечения, PSM не может его учесть.

PSM часто используется в обсервационных исследованиях, когда мы не можем применять рандомизацию. По сути, PSM - наш инструмент статистического подбора, помогающий исследователям сравнивать подобное с подобным, даже если природа или дизайн не позволяют сделать это легко. PSM помогает сделать наши результаты надежными, релевантными и готовыми к использованию в реальном мире!

Кратко этапы проведения PSM при сравнении терапии А (контроль) и В (новая терапия):
1. Выбрать факторы (ковариаты), которые наиболее хорошо характеризуют профиль пациента в группе А (исторический контроль). Возраст, стадия и т.д.
2. Сделать модель, например, логистической регрессии, где в качестве зависимой переменной будет факт назначения терапии А (1 - терапия назначалась, 0 - не назначалась).
3. Применить модель в группе В, тем самым выбрав только тех пациентов, которые подошли бы к назначению терапии А, но получили терапию В.
4. Сравнить группы А и выбранных пациентов из группы В между собой по результатам терапии.
Введение про обобщенные линейные модели (Generalized Linear Models (GLM))

GLM связывает зависимую переменную с факторами (ковариатами) посредством задаваемой функции. Модель допускает наличие у зависимой переменной распределения, отличающегося от нормального. Представьте себе, что вы пытаетесь приложить прямую линейку к кривой дорожке. Жизнь не всегда прямая, и данные тоже. GLM позволяет нам справиться с этими кривыми, это большое семейство регрессионных моделей с разными переменными отклика, решаемыми задачами и типами взаимосвязей. GLM помогают понять, какие факторы являются значимыми, а также предсказать результат. После применения GLM вы получаете коэффициенты. В общем виде каждый коэффициент показывает, насколько сильно тот или иной фактор влияет на результат. Положительный - увеличивает шансы, отрицательный - уменьшает. Величина коэффициента показывает силу влияния переменной на исход.

GLM могут быть нескольких видов:
Логистическая регрессия: прогнозирование бинарных исходов, таких как "ответит на лечение" или "не ответит".
Регрессия Пуассона: например, прогноз числа новых случаев заболевания в месяц.
Линейная регрессия: старая добрая классика, для линейно зависимых неперерывных данных.
Гамма-регрессия: применяется только для положительных непрерывных значений. В медицине гамма-регрессия может быть применена для моделирования затрат на здравоохранение, которые часто имеют положительный перекос из-за наличия большого числа случаев с низкими затратами и небольшого числа случаев с высокими затратами.

У GLM методов есть общие допущения:
Правильная функция взаимосвязи, которая выбирается, основываясь на распределении наших данных
Отсутствие мультиколлинеарности. Переменные-предикторы не должны быть сильно коррелировать связаны друг с другом.
Отсутствие чрезмерной дисперсии. Для счетных данных, если дисперсия превышает среднее, это признак того, что нам необходимо скорректировать модель (возможно, использовать отрицательную биномиальную регрессию).
Все наблюдения должны быть независимыми друг от друга.
Про анализ мощности

Анализ мощности позволяет определить размер выборки, необходимый для исследования, и гарантировать, что он сможет надежно обнаружить эффект, если он существует. По сути, речь идет о том, чтобы обеспечить достаточное количество данных для обоснованных выводов. Если не выполнить анализ мощности, то можно не собрать достаточно данных, что приведет к неубедительным результатам и к ошибочным выводам.

Компоненты анализа мощности:
Размер эффекта - величина различия, которое мы пытаемся обнаружить. Например, разница средних, отношение шансов и т.д.
Размер выборки - количество наблюдений в исследовании.
Уровень статистической значимости (α) - порог, при котором результат считается статистически значимым (как правило, 0.05).
Собственно мощность (1-β) - вероятность правильного обнаружения эффекта (β - ошибка 2 рода, как правило, не более 0.2).

Через размер эффекта и уровень значимости и используя специальные формулы можно рассчитать:
Необходимый размер выборки для исследования при заданной мощности.
Мощность статистического теста при заданном размере выборки.

Ошибки:
Преувеличение размера эффекта - принятие нового метода лечения за очень эффективный, в то время как он оказывает лишь незначительное воздействие, может привести к проведению исследований с недостаточной мощностью. Например, задавая больше, чем есть отношение шансов, можно получить меньший, чем требуется на самом деле размер выборки для исследования.
Игнорирование анализа мощности - неполучение значимых результатов, там где они есть (повышение риска ошибки 2 рода).
Опора исключительно на p-уровень значимости - даже если результат статистически значим, это не всегда означает, что он практически значим.
👍2
Про распространенность и заболеваемость

Распространенность и заболеваемость - два ключевых эпидемиологических показателя, используемых для изучения заболеваний.
📈 Распространенность - доля населения, у которого обнаружено состояние (например, заболевание) в определенный момент времени или за определенный период. Распространенность охватывает все случаи конкретного заболевания или состояния, имеющиеся в популяции в определенное время или за определенный период. Сюда входят как новые случаи (заболеваемость), так и уже существующие, которые еще не разрешились или привели к смерти. Например, общее число наблюдающихся больных на конец календарного года.

📉 Заболеваемость - число новых случаев заболевания в популяции в течение определенного периода времени. Она отражает скорость возникновения новых случаев заболевания. Заболеваемость учитывает только новые случаи, возникающие в популяции, подверженной риску, в течение определенного периода времени. Например, число новых случаев заболевания в течение года.

Факторы, влияющие на распространенность:
📌 Продолжительность заболевания: большая продолжительность заболевания увеличивает его распространенность.
📌 Заболеваемость: более высокий уровень заболеваемости увеличивает распространенность.
📌 Уровень излеченности: более высокая частота излечения снижает распространенность.
📌 Смертность: более высокая смертность снижает распространенность.

Факторы, влияющие на заболеваемость:
📌 Воздействие факторов риска: более высокий уровень риска увеличивает заболеваемость.
📌 Эффективность профилактических мер: более эффективная профилактика снижает заболеваемость.
📌 Динамика численности популяции: изменения в численности и структуре популяции влияют на заболеваемость, повышая или понижая ее.
👍1
Про причинно-следственный вывод (causal inference)

Причинно-следственный вывод - основополагающий принцип, лежащий в основе всех логических и философских рассуждений. Именно на его основании строится принятие решений в жизни, в том числе и в медицине. Вся диагностика и лечение больных основывается на причинно-следственном выводе. Проблема заключается в том, что статистический вывод не равно причинно-следственный вывод. Ни один метод статистического анализа не говорит об абсолютности причинно-следственной связи между явлениями, а лишь позволяет найти некие математические закономерности и ассоциации. Окончательное решение принимает исследователь. Тем не менее, в статистике существуют ряд подходов, чтобы сделать вывод о причинно-следственной взаимосвязи между явлениями было проще.

Рандомизированное контролируемое исследование (РКИ). Считается золотым стандартом для вывода о причинно-следственных связях, когда люди случайным образом распределяются по различным группам и наблюдается эффект от лечения.

Инструментальные переменные. В этом методе используется экзогенная переменная, которая не зависит от предикторной переменной и влияет на переменную результата только через предикторную переменную. Инструментальная переменная - переменная, которая коррелирует с эндогенной независимой переменной, но не связана напрямую с зависимой переменной. Она выступает в качестве "моста" между эндогенной переменной и членом ошибки, помогая изолировать причинный эффект независимой переменной на зависимую переменную (решить проблему эндогенности). При ее введении статистическая связь между зависимой и независимой переменной исчезает или сильно обслабевает в случае отсуствия истинной причинно-следственной связи.

Метод сопоставления оценок склонности

Проведение естественных экспериментов - дизайн исследования, в которой используются естественно возникающие события или обстоятельства для приближения к условиям контролируемого эксперимента. В естественном эксперименте исследователи используют ситуации, когда определенные условия или события имитируют случайное распределение участников по различным группам, аналогичное тому, что происходит в контролируемом эксперименте. Это позволяет исследователям изучать влияние определенной переменной или метода лечения на результат в реальных условиях. Однако, здесь следует учитывать риск bias

Контрфактический анализ, также известный как контрфактическое рассуждение или контрфактическое мышление, является фундаментальной концепцией в области причинных умозаключений и рассуждений. Он предполагает рассмотрение того, что произошло бы, если бы определенное событие, действие или условие не произошло или если бы был сделан другой выбор. Другими словами, контрфактический анализ позволяет исследовать сценарии "что-если", в которых прошлое развивалось бы по-другому. Это способ сравнения фактических результатов с гипотетическими, которые могли бы произойти при других обстоятельствах. Это не статистический тест! По сути, контрфактический анализ помогает исследователям сформулировать гипотезы о причинно-следственных связях, а статистические методы - проверить и количественно оценить эти гипотезы на основе данных. Сочетание контрфактического анализа и статистических методов позволяет исследователям делать значимые выводы о причинно-следственных связях в сложных реальных ситуациях.

Структурные причинно-следственные модели, известные также как причинно-следственные графические модели (диаграммы) или моделирование структурными уравнениями, представляют собой формальные схемы, используемые для представления и анализа причинно-следственных связей между переменными. Эти модели помогают исследователям понять, как переменные взаимодействуют и влияют друг на друга в сложных системах. Это не статистический тест сам по себе. Они позволяют концептуально и наглядно представить, как переменные взаимодействуют и влияют друг на друга в системе.

Больше информации здесь
Про мета-анализ

Мета-анализ - метод, объединяющий результаты нескольких исследований по схожей теме для получения более надежного заключения. Это похоже на объединение знаний, полученных в разных местах, для получения более четкой картины.
Отдельные исследования часто имеют небольшой объем выборки и могут показывать разные результаты. Мета-анализ повышает мощность и точность оценки за счет объединения данных нескольких исследований. Первым шагом является постановка научной гипотезы. Необходимо четко сформулировать, что именно вы хотите узнать. Далее проводится поиск всех исследований, которые могут ответить на поставленный вопрос. Для этого необходимо просмотреть опубликованные статьи, доклады на конференциях и даже препринты. Теперь необходимо решить, какие исследования включить в мета-анализ. Нельзя включать все подряд! Исследования должны быть достаточно похожими и качественными. Чтобы быть уверенным в объективности, необходимо заранее установить критерии для этого. Получив результаты исследований, проводится извлечение из них необходимых данных. Это может быть размер эффекта, размер выборки и другая необходимая информация. Наконец, проводится статистический анализ. С помощью статистических методов результаты всех исследований объединяются в единую оценку эффекта.

Существуют различные модели объединения результатов. Модель с "фиксированным эффектом" предполагает, что существует один истинный размер эффекта, который одинаков во всех исследованиях. Модель "случайных эффектов" предполагает, что истинный эффект может варьироваться от исследования к исследованию.

Однако мета-анализ имеет свои недостатки. Например, он подвержен влиянию предвзятости (bias) публикации - тенденции к тому, что исследования с положительными результатами чаще публикуются. Это может привести к переоценке эффекта. Кроме того, качество мета-анализа зависит только от качества включенных в него исследований. Если исходные исследования имеют недостатки, то эти недостатки будут перенесены в мета-анализ и исказить обобщенный результат.
👍1
Еще раз про ROC-анализ

ROC-анализ является фундаментальным инструментом для оценки эффективности моделей классификации. Он помогает нам понять, насколько хорошо наша модель может различать два класса, например, больной или здоровый пациент. ROC расшифровывается как Receiver Operating Characteristic. Это графическое представление, которое показывает диагностическую способность бинарного классификатора при изменении порога принятия решения. По сути, это помогает нам наглядно увидеть компромисс между чувствительностью и специфичностью.

На ROC-кривой по оси Y откладывается частота истинно положительных результатов (чувствительность), а по оси X - частота ложноположительных результатов (1-специфичность). Чувствительность - способность теста правильно идентифицировать людей с заболеванием (истинно положительный результат), а специфичность - способность теста правильно идентифицировать людей без заболевания (истинно отрицательный результат). ROC-кривая строится путем построения графика зависимости частоты истинно положительных результатов (TPR) от частоты ложноположительных результатов (FPR) путем перебора различных пороговых значений. Порог - значение, при превышении которого мы относим результат к положительному классу, а при понижении - к отрицательному.

Идеальный результат теста имеет точку в левом верхнем углу ROC-пространства (100% чувствительность, 100% специфичность), то есть он правильно определяет все положительные и отрицательные случаи. Бесполезная модель, не обладающая способностью к предсказанию класса, будет представлять собой 45-градусную диагональную линию от левого нижнего угла до правого верхнего. Площадь под ROC-кривой (AUC) - единое число, которое отражает общую эффективность диагностического теста (модели). AUC = 1.0 означает идеальный тест, а AUC = 0.5 - бесполезный тест. По сути, это количественная оценка общей способности модели различать положительные и отрицательные случаи. Важно отметить, что величина AUC не равна истинной точности модели, а является гипотетической точностью, по сути правдоподобием.

Выбор оптимальной точки отсечения с одной стороны важен, с другой несет в себе ряд проблем. Это точка, которая позволяет сбалансировать чувствительность и специфичность таким образом, чтобы это было целесообразно в конкретной клинической ситуации. Высокая точка отсечения может привести к меньшему количеству ложноположительных, но большему количеству ложноотрицательных результатов, и наоборот.
🔥1
Про доверительные интервалы

Представьте, что врач хочет определить среднее артериальное давление для всех взрослых. Измерить всех пациентов не представляется возможным, поэтому он берет выборку из 100 взрослых и рассчитывает, что среднее артериальное давление составляет 120 мм рт.ст. Врач знает, что это всего лишь оценка, и если он возьмет другую выборку, то может получить другое среднее значение. Чтобы количественно выразить данную неопределенность и существует доверительный интервал (ДИ). ДИ - диапазон значений, полученный на основе данных выборки, который, скорее всего, содержит истинное значение неизвестного параметра популяции. Например, врач может сказать, что он на 95% уверен в том, что среднее артериальное давление у всех взрослых находится в диапазоне от 118 до 122 мм рт.ст. Это и есть 95%-ный доверительный интервал.

Для расчета 95%-ного доверительного интервала используется среднее значение выборки (среднее) +|- 1.96 x (стандартное отклонение / √(размер выборки)). Величина 1.96 обусловлена тем, что 95% площади под кривой нормального распределения лежит в пределах 1.96 стандартных отклонений от среднего значения. Таким образом, если в выборке нашего врача стандартное отклонение составляет 10 мм рт.ст., то 95%-ный ДИ будет равен 120 +|- 1.96 x (10/√(100)) = от 118 до 122 мм рт.ст.

Интерпретация является ключевым моментом. Выражение "Я на 95% уверен, что среднее артериальное давление находится в диапазоне от 118 до 122 мм рт.ст." НЕ означает, что вероятность того, что истинное среднее значение находится в этом диапазоне, составляет 95%. Напротив, это означает, что если взять множество выборок и рассчитать 95% ДИ для каждой из них, то около 95% этих интервалов будут содержать истинное среднее артериальное давление в диапазоне от 118 до 122 мм рт.ст. А в 5% экспериментов среднее АД в популяции будет выходить за данные лимиты. Однако мы не знаем точного значения среднего АД, поскольку работаем с выборочными данными, а интервал дает нам возможность предположить, в каком диапазоне может находиться среднее АД. Также мы не знаем истинной вероятности того, что среднее АД будет находиться в данном интервале.

Обычно используется 95% ДИ, но в некоторых случаях может потребоваться более высокий или более низкий уровень. Например, если последствия ошибки очень серьезны, можно выбрать более высокий уровень доверия, например 99%.

Расчет ДИ для оценки дает полезную информацию, даже если он не сообщает прямой информации о вероятности того, что истинное значение попадает в этот интервал. Это лучше, чем просто точечная оценка, поскольку дает диапазон значений, которые согласуются с данными.
ДИ позволяет сравнивать различные оценки. Например, если ДИ эффективности двух методов лечения не пересекаются, это говорит о том, что один метод лечения может быть лучше другого.
ДИ могут использоваться для проверки гипотез. Если 95%-ный ДИ для разницы между двумя группами не включает ноль, это говорит о наличии статистически значимой разницы при уровне 0.05.
Практическая значимость. Малый ДИ предполагает наличие точной оценки, которая может быть очень ценной в процессе принятия решений.
Зная максимальное и минимальное значения выборки, можно получить диапазон всех наблюдаемых данных, но этот диапазон может оказаться не очень хорошей оценкой истинного параметра популяции. Например, если вы измеряете артериальное давление у 100 взрослых, то наименьшее и наибольшее значения дадут вам диапазон артериального давления в вашей выборке, но это мало что скажет вам о среднем артериальном давлении в популяции в целом. ДИ, напротив, дают диапазон правдоподобных значений популяционного параметра, основанный на данных выборки. Это может быть гораздо более информативным для принятия решений или выводов о популяции.
1
Про многофакторный анализ

Большинство реальных проблем включает в себя несколько переменных, влияющих на результат. В однофакторном анализе рассматривается одна переменная, в многофакторном - две или более переменных одновременно. В реальной жизни переменные часто взаимодействуют друг с другом сложным образом. Многофакторный анализ помогает выявить эти взаимодействия и понять взаимосвязь между ними. Например, у любого пациента кроме изучаемого вами фактора как минимум есть еще пол и возраст, которые могут влиять на изучаемый исход.

Преимущества многофакторного анализа
Многофакторный анализ позволяет контролировать сбивающие переменные, т.е. внешние переменные, которые могут влиять как на другие факторы, так и на зависимые переменные, что приводит к неверным выводам.
Благодаря учету нескольких переменных многофакторный анализ часто приводит к созданию моделей с большей предсказательной силой и точностью по сравнению с однофакторными моделями.
Выполнение нескольких однофакторных тестов повышает риск ошибки первого типа (ложноположительных результатов).
Многофакторный анализ учитывает все переменные одновременно, что снижает этот риск.
Многофакторный анализ позволяет получить более полное представление о взаимосвязях между переменными, что очень важно для принятия обоснованных решений и разработки эффективных стратегий.
Про центральную предельную теорему

Центральная предельная теорема (ЦПТ) утверждает, что распределение среднего значения достаточно большой выборки, независимо от распределения самой генеральной совокупности, будет стремиться к нормальному распределению. В результате, даже если базовая совокупность не является нормально распределенной, распределение выборочных средних будет становиться приблизительно нормальным по мере увеличения объема выборки. Другими словами, если мы будем формировать случайные выборки из общей совокупности данных и находить в них средние значения, то по мере роста числа таких выборок их средние будут нормально распределяться. При этом распределение генеральной совокупности может быть любым.

ЦПТ позволяет делать выводы о параметрах популяции на основе выборочных данных. Поскольку многие статистические тесты предполагают нормальность, ЦПТ дает нам основу для применения этих тестов даже в тех случаях, когда базовая совокупность не является нормально распределенной. Например, это относится к t-тесту Стьюдента. t-тест можно использовать и без предположения об абсолютно нормальном распределении, особенно если объем выборки достаточно велик. Благодаря ЦПТ t-тест устойчив к отклонениям от нормальности, особенно при достаточно большом объеме выборки, обычно около 30 или более наблюдений в каждой группе. Однако это эмпирическое правило, а не абсолютная граница. В некоторых случаях даже меньший объем выборки может дать приемлемые результаты, в то время как в других случаях может потребоваться больший объем выборки.
Про выбор наилучшего подмножества (Best Subset Selection, BSS)

BSS - метод, целью которого является найти подмножество независимых переменных (X), которые лучше всего предсказывают результат (Y), и он делает это путем рассмотрения всех возможных комбинаций независимых переменных. Другими словами это перебор всех возможных комбинаций предикторов, для поиска наиболее оптимальной из них с целью получения наиболее эффективной прогностической модели.

Этапы BSS при k независимых переменных:
1. Анализ эффективности всех возможных моделей с 1 переменной, 2 переменными,..., k переменными.
2. Выбираем лучшую модель размера 1, лучшую модель размера 2, ..., лучшую модель размера k методом перекрестной проверки.
3. Наконец , из этих финалистов выбираем лучшую модель в целом.

📌 Выбор наилучшей модели осуществляется из 2 в степени k возможных моделей.
📌 Выбор лучшей модели осуществляется по известным метрикам, например, по AIC, BIC и скорректированному R2.
📌 Выбор лучшей модели по показателям RSS (сумма квадратов остатков) и нескорректированному R2 возможно только на шаге 1, так как модель с бОльшим числом переменных всегда будет иметь наименьший показатель RSS и самый высокий R2.

Преимущества метода:
📌 "Золотой стандарт" выбора предикторов в модель, который позволяет нам определить наилучшую возможную модель, поскольку мы рассматриваем все комбинации переменных-предикторов.

Недостатки метода:
📌 Вычислительное ограничение: количество возможных моделей, которые должен учитывать алгоритм подмножества, растет экспоненциально с количеством рассматриваемых предикторов. Для 20 предикторов 2^20 = 1 048 576 моделей!
📌 Выбор из тысяч, даже миллионов моделей можно рассматривать как р-хакинг, поскольку одна модель может случайно выглядеть лучше и в конечном итоге оказаться неэффективной, когда мы попытаемся проверить ее на новых данных.
Вредные советы в статистике. Выполните однофакторный анализ перед многофакторным, чтобы выбрать предикторы

Данный подход на сегодняшний день считается устаревшим и неэффективным потому что:

📌 Выбор предикторов осуществляется на основании множества однофакторных тестов с риском случайной ошибки при выполнении каждого из них, величина которой накапливается.
📌 Присутствует риск ошибки 1 рода.
📌 В однофакторном анализе не учитывается как прогностически значимое, так и спутывающее влияние одних переменных на другие, не учитываются нелинейные взаимосвязи между предикторами.

В итоге во многофакторный анализ не попадают нужные или попадают ненужные переменные, в том числе конфаундеры. Многофакторная модель необязательно должна
включать в себя только статистически значимые предикторы, поэтому стремление выбрать только их лишено смысла.

Как следует решать проблему большого числа предикторов при построении модели
Проблема возникает в случае одновременно недостаточного количества данных и/или при желании сделать модель более простой. При достаточном количестве данных в изначальную модель следует включать все возможные предикторы, по которым собрана информация. Селекцию нужно начинать с ручного удаления тех из них, которые являются лишними с позиции логических рассуждений и знаний в данной предметной области. Машинные методы используются в том случае, когда эмпирического подхода становится недостаточно.
Используйте метод выбора наилучшего подмножества (BSS)
Используйте метод пошаговой регрессии (forward|backward)
Используйте регрессии со штрафными коэффициентами (LASSO, Enet и др.)
Используйте методы снижения размерности данных (например, метод главных компонент). В этом случае модель скорее всего станет "черным ящиком", но нам же главное результат ее эффективности.
Вы сделали прогностическую модель и определили порог вероятности, на основании которого принимаете решение. Почему это крайне плохое решение?!

Некоторые преподаватели статистики рекомендуют использовать порог (cut-off point), например, Индекс Юдена, для того, чтобы найти некую границу для принятия решений в контексте максимальной чувствительности и специфичности вашей прогностической модели. В чем проблема:

1. Проблема дихотомии. Допустим пороговая вероятность по индексу Юдена = 0.4. Перед вами 2 реальных пациента. Согласно вашей модели вероятность интересующего вас исхода у пациента №1 = 0.42, у пациента №2 = 0.39. Тогда пациент №1 попадет в группу высокого риска, а пациента №2 - в группу низкого. Пациенту №1 будет назначено лечение, а пациенту №2 - нет. Но на самом деле вероятность исхода у этих двух пациентов отличается только на 3%, они практически равнозначны между собой в контексте прямого понимания вероятности, неговоря уже о том, что прогнозируемая вероятность имеет свой доверительный интервал. Подумайте, сильно ли изменится ваше намерение взять зонт с собой если вероятность дождя увеличится с 39% до 42%?

2. Представим, что индекс Юдена = 0.2 или 0.8. В первом случае пациент с вероятностью исхода 0.21 попадает в группу высокого риска, а во втором случае пациент с вероятностью 0.79 - в группу низкого риска. В разве вероятность 21% это много или вероятность 79% это мало в контексте прямого понимания вероятности? Если вам скажут, что риск осложения от операции равен 79%, но мы считаем что он низкий, вы согласитесь?

3. Любая модель априори нестабильна, если она построена на маленьких по размерам выборках. Маленькие - это меньше 10-20 тысяч наблюдений, а то и больше при большом количестве предикторов. Под нестабильностью здесь понимается следующее. Если мы будем многократно повторять все шаги построения модели на других случайных выборках, модели будут отличаться между собой как по видам, входящих в них параметров, так и по настройкам данных параметров (например, величинам коэффциентов регрессии). Как следствие, результат прогноза для одного и того же пациента будет сильно отличаться. Ваша конкретная модель - лишь одна из множества возможных, которая получилась на данной случайной выборке. Модель тем более нестабильна, чем меньше размер выборки, на которой она создавалась. Любой порог будет также нестабильной величиной, который не будет работать в реальных условиях.

4. Даже при стабильной модели с неизменными параметрами и настройками определение порога на разных случайных выборках приведет к формированию доверительного интервала для величины порога. Любой интервал неопределенности лишает смысла существование единого порогового значения.

5. Мало кто занимается калибровкой модели. Ваша модель может, а скорее всего, выдает вероятности, которые не соответствуют истинным значениям прогнозируемого исхода для пациентов, то есть "псевдовероятности". Для понимания соответствия вероятностей модели и истинных вероятностей изучаемого исхода строится калибровочная кривая. Плохо откалиброванные модели не будут работать в реальности сами по себе и это намного более важно, чем поиск искусственных пороговых значений для принятия решений на таких "псевдомоделях".

6. Любое решение в реальной жизни зависит не столько от некоего универсального вероятностного порога, сколько от контекста ситуации. Например, если речь идет об операции, без которой пациент может умереть, взвешиваемые риски обычно очень высокие, чтобы уверенность в выбранном решении была максимальной. При индексе Юдена 90% вероятность 80% будет считаться низким риском и операция будет отложена. В реальности же вряд ли кто-то будет пренебрегать 80% вероятностью плохого исхода. Таким образом, важна сама персональная истинная вероятность, рассчитанная моделью в диапазоне от 0 до 1. Принятие конкретных решений на основе данной вероятности будет происходить в контексте текущей клинической ситуации, когда ясны последствия верно и неверно принятого решения. Здесь также могут помочь кривые принятия решений, но никак не пороговые значения ROC-кривых.
👍1🔥1
Про число пациентов, необходимое для лечения (Number Needed to Treat, NNT) и число пациентов, необходимое для нанесения вреда (Number Needed to Harm, NNH) в клинических исследованиях

При оценке нового лечения часто анализируются два ключевых показателя NNT и NNH.

📌 NNT
Представьте себе 100 человек с головной болью. Если 80 стало лучше с новой таблеткой, а 70 - без нее, то 10 получили пользу от таблетки. Таким образом, для того чтобы один человек получил пользу, необходимо вылечить 10 человек. Это и есть NNT, равный 10. Формула: NNT = 1/ARR, где ARR (Absolute Risk Reduction) - разница в показателях исходов между контрольной и леченной группами.
Допустим, у 20% нелеченых пациентов происходит событие (например, сердечный приступ). При лечении это событие происходит только у 10%. ARR = 0.2-0.1 = 0.1, тогда NNT = 1/0.1 = 10. Таким образом, для предотвращения одного события нам необходимо пролечить 10 человек. Более низкий показатель NNT, как правило, лучше. Если NNT препарата равен 2, это означает, что на каждые 2 человека, прошедших лечение, приходится 1 человек, которому наше лечение помогло. Если NNT равен 50, то для того, чтобы 1 человек получил пользу, необходимо пролечить 50 человек. Чем меньше это число, тем эффективнее лечение.

📌 NNH
Предположим, что из 100 человек у 5 возникли побочные эффекты от приема лекарства. Это означает, что на каждые 20 человек, прошедших курс лечения, приходится 1 человек, которому наносится вред. Таким образом, NNH = 20. Допустим, у 5% пациентов, не получавших лечения, возникает побочный эффект. При лечении побочный эффект возникает у 10%. Absolute Risk Increase (ARI) = 0.1 - 0.05 = 0.05, тогда NNH = 1/0.05 = 20. Таким образом, для того чтобы 1 человек испытал вред, необходимо, чтобы 20 человек получили лечение. Чем больше показатель NNH, тем лучше, тем безопаснее лечение (с точки зрения конкретного вреда).

Нужен баланс! Оценка как NNT, так и NNH нужна, чтобы решить, перевешивает ли польза риск от лечения. Препарат может иметь NNT, равный 5 (хорошо), но NNH, равный 6 (плохо). Таким образом, несмотря на его эффективность, существует и заметный риск. Например, аспирин может быть рекомендован для профилактики сердечных приступов. NNT показывает, сколько человек должны принимать его, чтобы предотвратить один инфаркт. Но он также может вызвать кровотечение, поэтому NNH показывает, сколько человек могут принимать его, прежде чем один человек пострадает от данного побочного эффекта.
1👍1
Про проверку статистических гипотез

Проверка статистической гипотезы - фундаментальное понятие статистики, играющее важнейшую роль в научных исследованиях. Она помогает нам принимать решения на основе полученных данных. Гипотеза - утверждение или предположение о каком-либо параметре (явлении) в популяции. В калссической статистике существует два типа гипотез: нулевая гипотеза (H0) и альтернативная гипотеза (H1 или Ha).

Нулевая гипотеза (H0) - утверждение об отсутствии эффекта или различий. Это то, что мы принимаем за истину до сбора данных. Альтернативная гипотеза (H1 или Ha) противоположна нулевой, это то, что мы хотим проверить или доказать. Вся идея проверки гипотез состоит в том, чтобы предоставить доказательства, позволяющие либо принять, либо отвергнуть нулевую гипотезу в пользу альтернативной гипотезы. Научный процесс начинается с выдвижения гипотез, как нулевой, так и альтернативной. Затем мы собираем и анализируем выборочные данные. Далее рассчитывается тестовая статистика, которая поможет принять решение.

Решение о том, отвергать или не отвергать нулевую гипотезу, принимается путем сравнения тестовой статистики с критическим значением, которое определяется выбранным нами уровнем значимости (α, альфа). Обычно используются значения α 0.05 или 0.01. Если тестовая статистика попадает в критическую область, мы отвергаем нулевую гипотезу в пользу альтернативной гипотезы. Если нет, то нулевая гипотеза не отвергается. Важно отметить, что отказ от нулевой гипотезы не означает, что мы принимаем ее как истинную. Это означает лишь то, что у нас недостаточно доказательств для подтверждения альтернативной гипотезы.

Также следует помнить, что проверка гипотез основана на вероятности. Даже если мы пришли к выводу о наличии значимого эффекта (или различия), всегда есть вероятность того, что мы допустили ошибку. Существует два типа ошибок при проверке гипотез: ошибка первого типа и ошибка второго типа. Ошибка первого типа возникает, когда мы отвергаем нулевую гипотезу, хотя на самом деле она верна. Ошибка второго типа возникает, когда мы не отвергаем нулевую гипотезу, когда альтернативная гипотеза верна. Выбранный нами уровень значимости (α) определяет вероятность ошибки первого типа. Мощность теста (1-β) - вероятность правильно отвергнуть нулевую гипотезу, если альтернативная гипотеза верна.

P-уровень значимости является важнейшей частью проверки гипотез. Это вероятность того, что если предположить, что нулевая гипотеза верна, наблюдаемая статистика (например, среднее значение, доля) будет такой же или более экстремальной, чем наблюдаемая статистика. Малое значение р-уровня, например меньше 0.05 указывает на то, что наблюдаемая статистика была бы очень маловероятной при нулевой гипотезе, и, следовательно, приводит к отклонению нулевой гипотезы.

Если результат статистически значим, это не означает, что он практически важен. Статистическая значимость относится к вероятности того, что результат является случайным, а практическая значимость - к величине эффекта и его потенциальному влиянию в реальном мире. Всегда важно учитывать как статистическую значимость, так и практическую важность результатов.
👍1
Про непараметрические тесты в медицинских исследованиях

Непараметрические тесты, также известны как тесты без распределения, представляют собой статистические методы, используемые для анализа данных, которые не предполагают какого-либо определенного распределения. Эти тесты особенно полезны, когда данные не удовлетворяют предположениям параметрических тестов, таким как, например, нормальность. Непараметрические тесты более пригодны для малых выборок, асимметричных данных или порядковых данных. Эти тесты могут быть ценным инструментом в медицинских исследованиях когда данные не удовлетворяют предположениям параметрических тестов, таким как нормальность, равенство дисперсий или линейность. Эти тесты также подходят для порядковых данных или небольших объемов выборки.

К числу часто используемых непараметрических тестов относятся:
Ранговый тест Уилкоксона. Этот тест используется для сравнения двух связанных выборок с целью оценки того, различаются ли их средние популяционные ранги. Он представляет собой непараметрический эквивалент парного t-теста и подходит для небольших объемов выборок и ненормально распределенных данных.
U-тест Манна-Уитни. Этот тест используется для сравнения двух независимых выборок с целью определения различий в распределениях их рангов. Он является непараметрической альтернативой независимому t-тесту и используется в тех случаях, когда предположения t-теста не выполняются.
Тест Крускала-Уоллиса. Это непараметрическая альтернатива одностороннему ANOVA. Он используется для сравнения более двух независимых выборок, чтобы определить, есть ли разница в их распределениях. Он подходит для данных с ненормальным распределением и неравными дисперсиями.
Ранговая корреляция Спирмена. Этот тест измеряет силу и направление связи между двумя порядковыми или непрерывными переменными. Он является непараметрической альтернативой коэффициенту корреляции Пирсона и подходит для нелинейных отношений.

Хотя непараметрические тесты более устойчивы к нарушениям предположений о данных, они, как правило, менее эффективны (маломощные), чем параметрические тесты, когда предположения выполняются. Это означает, что для обнаружения заданного эффекта может потребоваться больший объем выборки.
🔥1