статИИстик

Виды и отличия статистических анализов, связанных с обобщением агрегированных данных, в медицине

1. Pooled analysis (Объединенный анализ)
Объединение исходных данных нескольких отдельных исследований, как правило, схожего дизайна для создания более крупного набора данных для анализа. Простыми словами данные из разных исследований суммируются без взвешивания, так, как если бы они были получены из одной выборки. Это обеспечивает бОльшую статистическую мощность за счет бОльшего размера выборки. Также он полезен при субгрупповой оценке или для изучения взаимодействий (явлений), которые изначально не были запланированы как цели отдельных исследований.

2. Meta-analysis (Мета-анализ)
Предполагает анализ сводных статистических данных (средние значения, риски и др.), полученных в ходе нескольких независимых друг от друга исследованиях. Его цель - взвешенно обобщить результаты различных исследований для получения суммарной синтетической оценки эффекта лечения или связи между переменными. Мета-анализ используется в ситуациях, когда существует несколько исследований, посвященных одному и тому же вопросу, и их однотипные результаты необходимо объединить для получения более надежной и точной оценки основного эффекта.

3. Individual Participant Data (IPD) meta-analysis (Мета-нализ с индивидуальными данными участников)
Такой подход предполагает сбор и анализ исходных данных от каждого отдельного участника исследований (пациента). Это позволяет проводить более детальный и всесторонний анализ, а также лучше контролировать потенциальные конфаундеры (спутывающие переменные). Таким образом, IPD мета-нализ не опирается на сводную статистику или агрегированные результаты, но требует доступа к первичным сырым данным.

4. Network meta-analysis (Сетевой мета-анализ)
Также известен как анализ множественных методов лечения или косвенное сравнение методов лечения. Представляет собой статистический метод, используемый для анализа сравнительной эффективности нескольких видов терапии в отсутствии всех прямых "head-to-head" сравнений данных видов лечения между собой. Сетевой мета-анализ использует принципы традиционного мета-анализа в ситуации, когда существует сеть исследований, включающих различные методы лечения и их относительные эффекты (например, отношение шансов / рисков).

5. Component Network Meta-Analysis (CNMA)
CNMA представляет собой усовершенствованный вариант сетевого мета-анализа, предназначенный для анализа многокомпонентных схем лечения. В отличие от стандартного сетевого подхода, рассматривающего каждую комбинацию лечения как отдельную сущность, CNMA декомпозирует такие схемы на отдельные компоненты (например, лекарственные препараты) и оценивает вклад каждого в общий терапевтический эффект. Метод позволяет моделировать потенциальную эффективность новых комбинаций даже при отсутствии прямых клинических данных, а также уточнять роль каждого компонента в уже существующих схемах.

Статистические шоты

Про мета-анализ

Мета-анализ - метод, объединяющий результаты нескольких исследований по схожей теме для получения более надежного заключения. Это похоже на объединение знаний, полученных в разных местах, для получения более четкой картины.
Отдельные исследования…

133 viewsedited 17:44

статИИстик

Что такое конфаундеры (спутывающие/сбивающие факторы в исследованиях)

Сбивающие факторы - переменные, которые могут влиять на интересующий нас исход, но при этом не являются промежуточными переменными в цепочке причинно-следственных связей. Они могут создать ложное представление о связи между исследуемой переменной и результатом. Например, мы изучаем как употребление алкоголя влияет на риск заболеваний сердца, но не учитываем факт курения. При этом курение (конфаундер) будет самостоятельно влиять на исход.

Отсутствие учета конфаундеров может привести к:
1. Неверным выводам
2. Недостоверным результатам
3. Нерациональному использованию ресурсов

Перед началом работы необходимо определить потенциальные конфаундеры, через:
1. Обзор литературы
2. Мнения экспертов по теме исследования
3. Промежуточный анализ данных (корреляция, кросс-табуляция)

Особенности дизайна исследований с учетом конфаундеров:
1. Рандомизированные контролируемые исследования (РКИ)
В идеале в РКИ конфаундеры распределяются между группами поровну, но такие исследования далеко не всегда выполнимы по практическим причинам.

2. Сопоставление (Matching)
Подбор участников на основе конфаундеров. Например, если возраст является конфаундером, то в обеих группах должны быть участники одинакового возраста.

3. Стратификация
Сгруппировать участников по уровню сбивающих переменных. Проанализируйте каждую страту отдельно.

Post-Hoc методы
Проверьте, сохраняются ли какие-либо закономерности основных эффектов, если к ним добавить конфаундер. Например, если в уравнение регрессии добавить новую переменную, изменит ли это предыдущий результат. Если изучаемый нами предиктор сохраняет направление и статистическую значимость, то добавленная нами переменная не является конфаундером (помехой). Если же основной эффект меняет направленность или значимость, то добавленная ковариата - слабый или сильный конфаундер. Но надо помнить, что проблемы могут возникнуть и из-за нарушений к допущений к регрессионному анализу. Одним из признаков, что в данных есть конфаундер, является парадокс Симпсона.

👍1

129 viewsedited 06:44

статИИстик

Про оценку максимального правдоподобия (Maximum Likelihood Estimation или MLE)

MLE - одна из ключевых концепций в статистике, на базе которой построена работа регрессионного анализа и ряда методов машинного обучения. Разберем ее максимально простым языком без математического аппарата, хотя и здесь есть в чем запутаться.

Для начала нам нужны уже знакомые термины:
Вероятность (Probability, P) - вероятность того, что событие произойдет. Например, вероятность выпадения орла при подбрасывании правильной монеты равна 0.5.

Правдоподобие (Likelihood, L) - вероятность получить наблюдаемый результат с учетом известных входных параметров. Например, если мы 10 раз подрбросим монетку и N раз получим выпадение орла, а 1-N раз выпадение решки это будет нашим результатом. У этого результата (комбинации орлов и решек) будет своя вероятность, у другого результата - своя. Она называется правдоподобие.

Теперь, что такое MLE:
Через функцию MLE мы можем рассчитать какова максимальная вероятность того, что результаты получены при некоем условии, например, что у нас правильная монетка с P(орла) = 0.5 или любая другая монетка с любой P(орла/решки). Если вместо результатов с монеткой у нас какой-либо набор данных, от которого зависит вероятность исхода, то при оценке MLE мы можем определить при каких значениях этих данных вероятность исхода будет максимальной. Это используется в регрессионном анализе.

Итак, MLE — метод поиска значений параметров, которые делают ваши наблюдаемые данные наиболее вероятными, или, другими словами, максимизируют функцию правдоподобия. В примере с монетой MLE найдет значение P(орла/решки), которое делает наблюдаемое в эксперименте количество орлов и решек наиболее вероятным.Таким образом, оценка максимального правдоподобия — метод, который помогает вам найти наиболее подходящие значения параметров для вашей статистической модели, определяя значения, которые делают наблюдаемый исход (данные) наиболее вероятным.

Совсем простая аналогия — подбор ключа к замку. Представьте, что ключ это вероятность открыть замок, тогда MLE поможет вам найти наиболее подходящий для этого замка ключ, смотря на какие-то другие его характеристики. MLE не гарантирует, что вы найдете истинную вероятность, она лишь показывает, что из всех ключей (данных) что вы перебрали, именно этот наиболее вероятно окажется подходящим, чтобы достичь результата (открыть замок). MLE — это прекрасное сочетание логики, интуиции и математики, помогающее нам понять смысл окружающего мира.

Разновидностями классической MLE являются пенализированные (оштрафованные) функции MLE, используемые в соответствующих регрессиях, например, регрессия Фирта. Дело в том, что регрессионные модели очень чувствительны к размеру выборки. Оценки моделей могут оказаться не совсем корректными на малых выборках (например, при N менее 1000). В штрафных моделях максимизируется пенализированное (оштрафованное) правдоподобие L, а не обычное правдоподобие L. Дальше уже идет почти сплошная математика, поэтому следует остановиться и сделать выводы. Если вы делаете логистический регрессионный анализ, особенно при малых размерах выборок, да и при больших тоже, предпочтительнее использовать штрафные регрессии по умолчанию (регрессия Фирта (brglm2 package в R), LASSO, Ridge Regression, Elastic Net Regression). Какая практическая польза? Да просто ваши модели могут быть лучше и точнее!

👍1

111 viewsedited 11:45

статИИстик

Про отношение шансов и относительный риск

Понимание различий и применения этих двух показателей важно для интерпретации результатов исследований и принятия обоснованных решений.

Отношение шансов (Odds Ratio, OR) - мера связи между воздействием и исходом. Оно представляет собой шансы наступления события в одной группе по сравнению с шансами наступления события в другой группе, которые отличаются между собой по каким-либо характеристикам. OR предпочтительнее использовать в исследованиях типа "случай-контроль".

Относительный риск (RR) - отношение вероятности события, произошедшего в группе, подвергшейся воздействию, к вероятности события, произошедшего в группе, не подвергшейся воздействию. RR часто используется в когортных исследованиях для оценки риска.

Шансы (Odds) - отношение числа наблюдений с возникшим исходом, по отношению к числу наблюдений без исхода в группе.

Риск (Risk) - отношение числа наблюдений с возникшим исходом, по отношению к общему числу наблюдений в группе.

OR и RR решают задачи поиска взаимосвязи между данными. Если вам нужно оценить распредление категориального признака между двумя группами, то это будет задачей сравнения распределения данных, которая решается непараметрическими методами (Хи2 / точный критерий Фишера).

109 views11:06

статИИстик

Размер выборки в регрессионом анализе имеет значение!

Результат в регрессионных моделях является асимптоматическим. В контексте регрессии «асимптотический результат» относится к изменению коэффициентов регрессии по мере того, как размер выборки (количество данных) приближается к бесконечности. Это связано с концепцией асимптотической теории в статистике, которая имеет дело с поведением статистических оценок и тестов, когда размер выборки становится очень большим. Хотя в жизни бесконечный объём выборки никогда не достигается, при заданном конечном объёме выборки можно рассматривать асимптотическое распределение как приближение (апроксимация) действительного распределения. Такое приближение улучшается с увеличением размера выборки.

Асимптотическая нормальность. Одним из ключевых асимптотических результатов регрессии является асимптотическая нормальность оценочных коэффициентов. По мере увеличения размера выборки распределение оцениваемых коэффициентов сходится к нормальному (гауссову) распределению. Это свойство позволяет строить доверительные интервалы и проверять гипотезы для коэффициентов.

Непротиворечивость. Еще одним важным свойством является согласованность оцениваемых коэффициентов. Это означает, что по мере увеличения размера выборки оценочные коэффициенты модели регрессии будут сходиться к истинным коэффициентам генеральной совокупности. Проще говоря, с большим количеством данных оценки становятся более точными.

Эффективность. Асимптотическая эффективность относится к тому свойству, что по мере увеличения размера выборки оценки коэффициентов регрессии становятся более эффективными, что означает, что они имеют меньшую дисперсию. Это означает, что чем больше размер выборки, тем точнее оценки.

Асимптотические результаты имеют решающее значение для статистических выводов с использованием регрессии. Проверки гипотез и доверительные интервалы для коэффициентов основаны на асимптотических свойствах оценок результатов регрессии. Это позволяет исследователям делать заявления о взаимосвязях между переменными с определенным уровнем достоверности и определенности. Экстраполируя результат оценки выборочной совокупности на генеральную совокупность мы принимаем его асимптоматичность, что возможно только при достаточном размере выборки.

95 views17:13

статИИстик

Про C-индекс и коэффициент корреляции Сомерса

Обе характеристики являются метриками дискриминативности прогностической модели, по которым определяется ее потенциальная прогностическая точность.

Коэффициент корреляции Сомерса Dxy – корреляция оценочных истинных и предсказанных вероятностей в регрессионных моделях. Чтобы вычислить Dxy Сомерса, необходимо сначала вычислить сумму предсказанных вероятностей Y для группы наблюдений с предсказанной вероятностью менее 0,5 (условная величина S1). Затем вычисляется сумма предсказанных вероятностей Y для группы наблюдений с предсказанной вероятностью, большей или равной 0,5 (условная величина S2). Dxy Сомерса = (S1 - S2) / (S1 + S2). Dxy Сомерса будет варьироваться от -1 до 1, при этом значение -1 указывает на полную отрицательную связь между двумя переменными (т.е., когда одна переменная равна 1, другая всегда равна 0), значение 0 указывает на отсутствие связи между переменными, и значение 1 указывает на совершенную положительную связь (т. е. когда одна переменная равна 1, другая всегда равна 1).

Индекс соответствия (C-индекс) – метрика для оценки точности прогнозов, сделанных моделью. Предложен Фрэнком Харреллом. C-индекс вычисляется по формуле 0.5 + Dxy/2. Значение C-индекса по своей сути соответствует AUC-ROC, а при бинарной модели C-индекс = AUC-ROC.

94 views17:15

статИИстик

Про трансформацию (преобразование) данных

Если количественные данные представлены в разных форматах и единицах измерения, а вам нужно провести регрессионный или корреляционный анализ, возможно, может потребоваться предварительная трансформация (преобразование) данных. Например, есть датасет, в котором присутствуют результат измерения АД в мм рт. ст, ЧСС в уд. в мин., уровень глюкозы в крови в ммоль/л, общий белок в крови в г/л и т.д. Значения данных сильно отличаются друг от друга как по величине, так и по распределению. Их преобразование может исправить ситуацию и улучшить результат статистических тестов или машинного обучения.

Есть разные варианты, которые можно комбинировать между собой:
1. Min-Max нормализация. Метод, который преобразует данные таким образом, что значения будут лежат в диапазоне от 0 до 1. Формула нормализации выглядит следующим образом: x' = (x - mean(x)) / (max(x) - min(x)), где x – исходное значение, x’ – нормализованное значение, mean(x) – среднее значение набора данных, min(x) и max(x) – минимальное и максимальное значения в наборе данных соответственно.

2. Z-преобразование. Метод, который нормализует данные на основе среднего значения (μ) и стандартного отклонения (σ) набора данных. Формула z-преобразования выглядит следующим образом: x' = (x - μ) / σ, где x – исходное значение, x’ – нормализованное значение, μ – среднее значение набора данных, σ – стандартное отклонение набора данных. Масштаб набора данных меняется так, чтобы среднее значение = 0, а стандартное отклонение = 1.

Обычно мы нормализуем данные при проведении анализа, в котором имеется несколько переменных, измеряемых по разным шкалам, и хотим, чтобы каждая из них имела одинаковый диапазон. Это позволяет избежать чрезмерного влияния одной переменной, особенно если она измеряется в разных единицах (например, если одна переменная измеряется в г/л, а другая - в ммоль/л).

3. Другое. Например, логарифмирование (логарифм с любым основанием), извлечение квадратного корня, извлечение кубического корня ... Такие преобразования могут убрать выбросы, уменьшить дисперсию, нормализовать распределение данных.

Нормализация данных (пункты 1-2) имеет ряд преимуществ:
✅ Упрощение сравнения данных: когда все данные представлены в едином масштабе, их легче сравнивать и анализировать.
✅ Ускорение обучения алгоритмов машинного обучения: многие алгоритмы обучаются быстрее, когда данные нормализованы.
✅ Повышение точности алгоритмов: нормализация данных может помочь алгоритмам сосредоточиться на важных аспектах данных, улучшая их точность и производительность.

92 views17:29

статИИстик

При создании прогностической модели существуют множество правил и последовательных действий. Одни из них связаны с разделением данных на тренировочный, валидационный и тестовый датасет. При малых размерах выборок это большая проблема, но сейчас не об этом.

❌ Вот как поступают многие при создании прогностической модели:
1. Преобразовывают свой набор данных (про преобразование данных)
2. Затем разбивают датасет (обучающий, валидационный и тестовый наборы)
3. Наконец, строят модель

Здесь кроется большая проблема. К сожалению, многие допускают эту ошибку. Например, выполнена min-max нормализация. Если не разделить набор данных сразу, то для вычисления минимального и максимального значений конкретного столбца будут использованы все данные. В том числе и информация из будущего тестового набора, о которой вы не должны знать! Это называется "утечкой данных". Вы используете информацию из тестовых данных, которая повлияет на ваш обучающий процесс.

✅ Вот правильный алгоритм:
1. Сначала нужно разделить данные и отложить тестовый набор в сторону!
2. Преобразовать обучающий набор данных и сделать модель
3. Преобразовать отложенные тестовые данные и проверить модель

После преобразования обучающего набора следует использовать тот же подход для трансформации тестовых данных. Вывод: никогда не преобразуйте данные перед их разбиением!

95 views17:35

статИИстик

В 1925 г. во время летнего послеобеденного чая одна дама, доктор Мюриэл Бристол, заявила, что она может определить, что налито в чашку первым - молоко или чай. Рональд А. Фишер, всегда готовый к статистическим вызовам, увидел возможность для эксперимента. Было приготовлено 8 чашек - 4 с вначале налитым молоком и 4 - с чаем. Дама правильно определила 3 из 4 чашек в каждой группе, что привело к вопросу: это случайность или ее настоящая способность? При проверке гипотез это означает выдвижение нулевой и альтернативной гипотез. Фишер сформулировал решение данного вопроса как комбинаторную задачу. Если бы это была простая удача, то вероятность того, что дама правильно ответит на все 8 вопросов, была бы невелика. Это заложило основу для концепции p-значимости. Р-значимость - вероятность наблюдения полученного или более экстремального результата при условии, что нулевая гипотеза верна. Доктор Мюриэл Бристол не смогла отгадать все чашки, но она справилась лучше, чем можно было бы предположить на основании простой вероятности. Это стало основной для дальнейших разработок Фишера в области экспериментального дизайна и проверки гипотез, а в итоге появился точный критерий Фишера.
"Дама, пробующая чай" - не просто причудливая история. Это рождение концепций, основополагающих для современной статистики. В следующий раз, когда вы будете пить чай, вспомните о богатом наследии, которое хранится в каждой чашке этого напитка.

97 views13:13

статИИстик

Про анализ выживаемости простым языком

✅ Анализ выживаемости - статистический метод изучения времени до наступления того или иного события, например, смерти пациента. В отличие от привычных средних значений, анализ выживаемости оценивает время - сколько времени требуется для того, чтобы произошло то или иное событие. Событием может быть что угодно: сколько времени пройдет до поломки машины? Сколько дней пройдет до выздоровления пациента? Как быстро погаснут свечи?

✅ Но не все свечи догорят за время нашего наблюдения, как и не все пациенты могут поправиться или умереть. Событие может еще не наступить, когда мы закончим исследование. Это называется "цензурированием". Анализ выживаемости обрабатывает эту неполную информацию.

✅ Функция выживания - кривая, которая показывает вероятность выживания (т.е. события, которое еще не произошло) с течением времени. Если вы изучаете выживаемость больных, то она будет показывать вероятность того, что проживет X (дней/месяцев/лет). Hazard Ratio (коэффициент опасности) - риск того, что событие произойдет в определенное время, учитывая, что до этого момента оно еще не произошло. Например, насколько вероятно, что свеча погаснет на 5-м часу, если через 4 часа она все еще горит?

✅ Почему бы просто не использовать средние значения? Допустим, у вас есть 2 батарейки. Одна сдохнет через 1 час, другая - через 9. Среднее значение = 5 часов. Но это не дает полной картины. Анализ выживаемости дает более подробную картину. С помощью кривых выживания мы можем понять такие нюансы, как процент батарей, проработавших определенное время, риск смерти в определенный период времени, а также сравнить различные группы между собой.

✅ Анализ выживаемости применяется повсеместно! Медицина - прогнозирование выживаемости пациентов, инженерия - прогнозирование срока службы машин, финансы - время до дефолта по кредиту и т.д. Анализ выживаемости - мощный инструмент, который выходит за рамки простых средних значений. Он позволяет детально рассмотреть, как время влияет на события.

Другие шоты по данной теме:
Кратко о тестах сравнения кривых Каплана-Мейера
Что нужно знать и понимать о кривой выживаемости
Про виды показателей выживаемости в медицине
Как оценить выживаемость пациентов при наличии конкурирующих событий
Подробно про Hazard Ratio

101 views13:41

статИИстик

Про ансамбли в машинном обучении: Bagging, Boosting и Stacking

Для улучшения результатов прогнозирования существуют ансамблевые подходы в обучении и при применении прогностических моделей. Иногда их принципы уже заложены в тот или иной метод машинного обучения, в другом случае эти принципы можно использовать искусственно и комбинировать между собой.

1. Bagging. Представьте, что вы врач и пытаетесь поставить диагноз пациенту. Вместо того чтобы делать это самостоятельно, вы просите ваших коллег вам помочь и собираете консилиум. Каждый из врачей смотрит на пациента по-своему с позиции своих знаний, клинического мышления и высказывает свое мнение. Затем вы усредняете все их предположения. Это и есть Bagging! Говоря техническим языком, Bagging обучает несколько версий модели на разных подмножествах, чтобы уменьшить дисперсию (ошибки из-за шума). Самый популярный метод основанный на бэггинге - модель случайного леса (ансамбль из множества деревьев решений).

2. Boosting. Предположим, что первый врач поставил диагноз, но не очень точно и отправил пациента на дообследование. Теперь второй врач пытается исправить неточность первого с учетом новых данных, и так далее. Каждый врач учится на ошибках и результатах предыдущего. В машинном обучении бустинг позволяет построить серию моделей, каждая из которых исправляет ошибки предыдущей, уделяя больше внимания неверно классифицированным точкам данных. Популярные методы: градиентный бустинг, XGBoost, CatBoost, AdaBoost.

3. Stacking. Вы собрали междисциплинарный консилиум по пациенту из врачей разных специальностей. Один - клиницист, другой - генетик, третий - морфолог. Вместо того чтобы полагаться на мнение только одного врача, объедините сильные стороны всех участников консилиума! В методе Stacking мы объединяем (или "складываем") прогнозы нескольких моделей. Затем финальная модель (называемая мета-моделью) обучается на этих объединенных прогнозах, чтобы дать окончательный ответ. Это похоже на использование коллективной мудрости!

Перечисленные выше методы помогают:
✅ Улучшить точность прогноза
✅ Уменьшить систематическую ошибку и дисперсию
✅ Повысить надежность моделей

Одна голова - хорошо, а много - лучше!

120 views14:42

статИИстик

Про bias (предвзятость / смещенность)

Под предвзятостью в статистике понимается систематическая ошибка или искажение в способе сбора, анализа или интерпретации данных, приводящие к неточным или вводящим в заблуждение результатам. Предвзятость может возникать по разным причинам и влиять как на процесс выборки, так и на анализ данных. Это может привести к результатам, которые неточно представляют истинную совокупность или изучаемое явление.

Вот некоторые распространенные виды предвзятости в статистике, которые часто могут дополнять друг друга:

⚠️ Предвзятость сбора данных. Возникает, когда выборка, используемая для анализа, не является репрезентативной для всей генеральной совокупности. Определенные группы или отдельные лица с большей вероятностью будут включены в выборку, что приведет к результатам, которые не будут хорошо обобщены на всю совокупность. Например, исследователь сознательно включит в выборку пациентов, у которых были хорошие результаты лечения, чтобы не дискредитировать лекарственный препарат или метод лечения. Другой пример, когда дизайн исследования подразумевает опрос респондентов, но не все возможные респонденты принимают в участие в исследовании, отвечают на вопросы или все ответы учитываются.

⚠️ Предвзятость измерения. Возникает при наличии неточностей или ошибок в способах сбора, регистрации или измерения данных. Это может быть следствием неисправности приборов, человеческого фактора или несоответствия методов измерения поставленным задачам. Можно считать это разновидностью предвзятости сбора данных.

⚠️ Предвзятость выборки. Метод отбора участников исследования не обеспечивает равных шансов для включения в него всех членов популяции, может возникнуть предвзятость выборки. Это приводит к получению нерепрезентативной выборки. Например, в отсуствии рандомизации.

⚠️ Предвзятость наблюдателя. Возникает, когда ожидания или убеждения исследователя влияют на интерпретацию результатов. Это может привести к непреднамеренным ошибкам при сборе или анализе данных. Например, стремление получить нужный результат приводит к искусственному искажению набора данных.

⚠️ Предвзятость при публикации. Возникает, когда принято публиковать исследования со статистически значимыми или положительными результатами, а исследования с незначимыми или отрицательными результатами публикуются реже и не публикуются совсем. Это может создать искаженное представление об общем объеме доказательств по теме.

⚠️ Сбивающие факторы. Ошибка происходит, когда третья переменная (конфаундер) влияет на независимые и зависимые переменные в исследовании, создавая ложную связь между ними. Контроль за сбивающими переменными важен для того, чтобы избежать необъективных результатов.

Необъективность статистических данных может существенно повлиять на достоверность и надежность результатов исследования. Для уменьшения bias исследователи должны тщательно планировать свои исследования, использовать методы случайной выборки (в т.ч. рандомизацию), применять стандартизированные методики измерений, прозрачно описывать свои данные, манипуляции с ними, методы анализа и возможные ограничения. Также очень важно критически оценивать исследования и их bias при интерпретации статистических результатов.

👍1

128 viewsedited 19:18

статИИстик

🙈 Размер выборки не учитывается при разработке модели прогнозирования

Группа уважаемых статистиков выполнила систематический обзор 119 публикаций, в которых были описаны медицинские прогностические модели. Только 8% исследований указали и обосновали способ расчета размера выборки для своих моделей. При этом в 73% из них размер выборки не соответствовал минимально необходимому (по методу Riley et al.). Авторы призывают исследователей обосновывать, выполнять и сообщать о методах расчета размера выборки при создании прогностических моделей.
Источник: https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-023-02008-1

SpringerLink

Sample size requirements are not being considered in studies developing prediction models for binary outcomes: a systematic review

BMC Medical Research Methodology - Having an appropriate sample size is important when developing a clinical prediction model. We aimed to review how sample size is considered in studies developing...

113 views15:53

статИИстик

Про ассоциацию, корреляцию и причинно-следственную связь

"Корреляция не подразумевает причинно-следственной связи". Это краеугольный камень в анализе данных!

✅ Ассоциация. По своей сути ассоциация означает, что между двумя переменными существует некоторая связь. Это не говорит нам о силе или направлении связи, а только о том, что связь существует. Примеры ассоциации: продажа мороженого и посещение бассейна, размер обуви и способность к чтению у детей. В обоих случаях связь есть, но она не прямая. В первом случае она обусловлена жаркой погодой, во втором - возрастом ребенка.

✅ Корреляция. Корреляция, являющаяся более глубоким понятием, чем ассоциация, определяет силу и направление линейной связи между двумя переменными. Она измеряется коэффициентом корреляции (часто "r"), который варьируется от -1 до 1. Понимание корреляции: r = 1 - идеальная положительная корреляция, r = -1 - идеальная отрицательная корреляция, r = 0 - отсутствие линейной корреляции. Однако значение r, близкое к 0, не всегда означает отсутствие связи; связь может быть нелинейной.

✅ Причинно-следственная связь (Causation). Причинно-следственная связь означает, что изменение одной переменной вызывает изменение другой. Ее труднее всего доказать и для этого требуются контролируемые эксперименты, например, рандомизированное контролируемое клиническое исследование, исключение скрытых переменных. Многие факторы могут исказить взаимосвязь. Например, если вы обнаружили корреляцию между продажами мороженого и нападениями акул, это не означает, что одно является причиной другого. И то, и другое увеличивается летом в жаркую погоду - скрытая переменная! Корреляция (Correlation) ≠ Причинно-следственная связь (Causation).

Неправильное понимание этих концепций может привести к ошибочным выводам. При работе с данными и выводами тщательно анализируйте представленную взаимосвязь. Спрашивайте себя, не могут ли здесь играть роль другие факторы. Ищите экспериментальные доказательства, прежде чем соглашаться с утверждениями о причинно-следственной связи. Понимание нюансов между ассоциацией, корреляцией и причинно-следственной связью - не просто семантика. Оно является основополагающим для научной грамотности, принятия взвешенных решений и критического мышления.

108 views05:49

статИИстик

Про тесты Вальда, отношения правдоподобия, AIC и BIC при создании прогностических моделей

Тестирование параметров модели необходимо для подтверждения значимости переменных, входящих в ее состав, а также для сравнения моделей между собой. Когда мы говорим о "тестировании параметров модели", мы, по сути, спрашиваем "оказывает ли этот конкретный фактор (ковариата) существенное влияние на нашу модель или прогноз?".

✅ Тест Вальда. Использует отношение значения регрессионного коэффициента параметра к его стандартной ошибке. Это как бы измерение того, на сколько стандартных наша оценка отклоняется от нуля. Полученное соотношение сравнивается с критическим значением из соответствующего распределения, чтобы определить, является ли параметр статистически значимым. Если абсолютное значение рассчитанной статистики Вальда больше критического значения из эталонного распределения, то нулевая гипотеза отвергается и делается вывод о том, что параметр статистически значим. Критическое значение зависит от желаемого уровня значимости (например, 0.1). Тест прост в вычислениях и хорошо работает для больших выборок. Может давать сбои при малых выборках.

✅ Тест отношения правдоподобия. Сравнивает правдоподобие (пригодность) двух вложенных друг в друга моделей - модели с параметром и модели без параметра. Очень надежен и считается устойчивым, даже при малых выборках. Считается золотым стандартом для оценки вложенных (nested) моделей. Вложенная модель - регрессионная модель, которая содержит подмножество предикторных переменных другой регрессионной модели.

✅ AIC (информационный критерий Акаике) позволяет сравнивать несколько моделей, построенных на одних и тех же данных, поощряя хорошую подгонку модели к данным, но штрафуя за лишние параметры, что позволяет сбалансировать подгонку и простоту при выборе параметров. Более низкие значения AIC свидетельствуют о лучшем компромиссе между подгонкой и простотой. Основная идея AIC заключается в том, чтобы найти модель, которая хорошо соответствует данным, при этом накладывая штраф на количество параметров в модели. Это позволяет избежать чрезмерной подгонки, когда сложная модель отражает шум в данных, а не основные закономерности.

✅ BIC (Байесовский информационный критерий). Как и AIC, BIC направлен на достижение баланса между пригодностью модели и ее сложностью, однако для сложных моделей он вводит более сильный штраф.
Ключевое различие между AIC и BIC заключается в штрафной части формулы для рассчета. Более низкие значения BIC свидетельствуют о лучшем компромиссе между подгонкой и простотой.

Построение модели носит итеративный характер. Вы добавляете переменную, тестируете модель, а затем решаете, оставить переменную или отбросить. Тесты помогают принимать ключевые решения в данном контексте. В тоже время следует помнить, что статистическая значимость - это одно, а реальная значимость - совсем другое. Убедитесь, что значимый параметр также имеет практическое значение для вашей модели.

👍2

103 viewsedited 16:31

статИИстик

Про типы наборов данных при создании прогностических моделей

При создании прогностической модели любым методом требуется предварительное разделение данных на несколько типов. Классическая картина - 3 различных набора данных: тренировочный (обучающий), валидационный и тестовый.

Тестовый набор. Первое, что следует сделать на этом этапе - "забыть" о существовании тестового набора (отложить его в сторону). Тестовые данные обычно составляют 10-20% от общего набора. Размер выборки для тестирования должен высчитываться с использованием методов определения минимального размера вборки для создания прогностических моделей.

Обучающий набор данных. Никаких других данных за пределами этого набора не существует. Эти данные используются для каждого нового эксперимента, преобразования и принятия решений.

Валидационный набор. Эти данные используются для расчета эффективности вашей модели и принятия решения о том, как ее улучшить (~10-20% от общего с обучающим набором объема данных). Валидационный датасет дает обратную связь. Вы можете использовать эту обратную связь для улучшения своей модели.

Если данных мало:
✅ Не создавать валидационный набор данных. Валидационные данные должны содержать не менее 100 событий (эмпирическое правило), чтобы быть значимыми. Вместо этого можно использовать k-кратную перекрестную валидацию или бутстрэппинг.
✅ Не создавать тестовый набор данных - использовать внешний датасет в рамках внешней валидации.

Вот итерационный процесс, которому нужно следовать:
1. Обучить модель на обучающем наборе
2. Оценить качество модели на валидационном наборе
3. Изменить параметрым модели для ее улучшения
4. Снова оценить ее на валидационном наборе, снова улучшить и т.д.

Через некоторое время модель неизбежно начнет подстраиваться под валидационный набор (переобучаться). В этом случае валидационный набор станет бесполезным.

Что делать:
✅ Через несколько итераций снова смешать валидационный и обучающий набор и повторно разделить его случайным образом
✅ Использовать k-кратную перекрестную валидацию или бутстрэппинг

Еще про тестовый набор:
✅ До самого конца вы никогда не смотрите на свои тестовые данные.
✅ Вы никогда не используете их для анализа или преобразований.
✅ Никогда не принимайте решений, влияющих на вашу модель, используя тестовые данные.
✅ Вы относитесь к тестовым данным так, как будто их не существует.
✅ Цель тестового набора - обеспечить окончательную, несмещенную оценку эффективности вашей модели.
✅ Хороший тестовый набор даст вам результаты, аналогичные тем, которые вы ожидаете получить при обработке реальных данных.

Многие запускают свою модель на тестовом наборе и обнаруживают, что модель не очень хороша. Они возвращаются назад и вносят изменения в модель до тех пор, пока производительность не улучшится. Ничего страшного, кроме того, что они снова используют тот же тестовый набор! Эффективность тестового набора уменьшается пропорционально количеству его использования. Вскоре тестовый набор перестанет быть точным показателем того, насколько хороша ваша модель. Используйте тестовые данные один раз!

97 viewsedited 08:12

статИИстик

Про метод сопоставления оценок склонности (Propensity Score Matching, PSM)

Золотым стандартом сравнительных исследований являются рандомизированные. В таком идеальном сценарии пациенты случайным образом распределяются по группам исследования (например, лечение против контроля). Случайность распределения обеспечивает сопоставимость групп. Однако во многих реальных исследованиях мы не имеем такой возможности. Поэтому PSM - наш спаситель!

"Оценка склонности" - вероятность того, что пациент попадет в ту или иную группу сравнения, например, получит лечение, который высчитывается на основе его наблюдаемых характеристик. Чтобы рассчитать эту вероятность мы создаем прогностическую модель, например, логистической регрессии или другую и пропускаем через нее всю выборку. После того как каждый пациент получил свою оценку, мы объединяем пациентов с одинаковыми оценками, что обеспечивает более сбалансированное сравнение. После сопоставления, группы лечения и контроля становятся более похожими друг на друга по наблюдаемым характеристикам. Это уменьшает смещение, гарантируя, что эффект, который мы видим, скорее всего обусловлен лечением, а не какими-то скрытыми различиями. Магия PSM не безгранична. Она уравновешивает только то, что видит. Если существует ненаблюдаемый фактор, влияющий на выбор лечения, PSM не может его учесть.

PSM часто используется в обсервационных исследованиях, когда мы не можем применять рандомизацию. По сути, PSM - наш инструмент статистического подбора, помогающий исследователям сравнивать подобное с подобным, даже если природа или дизайн не позволяют сделать это легко. PSM помогает сделать наши результаты надежными, релевантными и готовыми к использованию в реальном мире!

Кратко этапы проведения PSM при сравнении терапии А (контроль) и В (новая терапия):
1. Выбрать факторы (ковариаты), которые наиболее хорошо характеризуют профиль пациента в группе А (исторический контроль). Возраст, стадия и т.д.
2. Сделать модель, например, логистической регрессии, где в качестве зависимой переменной будет факт назначения терапии А (1 - терапия назначалась, 0 - не назначалась).
3. Применить модель в группе В, тем самым выбрав только тех пациентов, которые подошли бы к назначению терапии А, но получили терапию В.
4. Сравнить группы А и выбранных пациентов из группы В между собой по результатам терапии.

99 views08:53

статИИстик

Введение про обобщенные линейные модели (Generalized Linear Models (GLM))

GLM связывает зависимую переменную с факторами (ковариатами) посредством задаваемой функции. Модель допускает наличие у зависимой переменной распределения, отличающегося от нормального. Представьте себе, что вы пытаетесь приложить прямую линейку к кривой дорожке. Жизнь не всегда прямая, и данные тоже. GLM позволяет нам справиться с этими кривыми, это большое семейство регрессионных моделей с разными переменными отклика, решаемыми задачами и типами взаимосвязей. GLM помогают понять, какие факторы являются значимыми, а также предсказать результат. После применения GLM вы получаете коэффициенты. В общем виде каждый коэффициент показывает, насколько сильно тот или иной фактор влияет на результат. Положительный - увеличивает шансы, отрицательный - уменьшает. Величина коэффициента показывает силу влияния переменной на исход.

GLM могут быть нескольких видов:
Логистическая регрессия: прогнозирование бинарных исходов, таких как "ответит на лечение" или "не ответит".
Регрессия Пуассона: например, прогноз числа новых случаев заболевания в месяц.
Линейная регрессия: старая добрая классика, для линейно зависимых неперерывных данных.
Гамма-регрессия: применяется только для положительных непрерывных значений. В медицине гамма-регрессия может быть применена для моделирования затрат на здравоохранение, которые часто имеют положительный перекос из-за наличия большого числа случаев с низкими затратами и небольшого числа случаев с высокими затратами.

У GLM методов есть общие допущения:
✅ Правильная функция взаимосвязи, которая выбирается, основываясь на распределении наших данных
✅ Отсутствие мультиколлинеарности. Переменные-предикторы не должны быть сильно коррелировать связаны друг с другом.
✅ Отсутствие чрезмерной дисперсии. Для счетных данных, если дисперсия превышает среднее, это признак того, что нам необходимо скорректировать модель (возможно, использовать отрицательную биномиальную регрессию).
✅ Все наблюдения должны быть независимыми друг от друга.

91 views12:30

статИИстик

Про анализ мощности

Анализ мощности позволяет определить размер выборки, необходимый для исследования, и гарантировать, что он сможет надежно обнаружить эффект, если он существует. По сути, речь идет о том, чтобы обеспечить достаточное количество данных для обоснованных выводов. Если не выполнить анализ мощности, то можно не собрать достаточно данных, что приведет к неубедительным результатам и к ошибочным выводам.

Компоненты анализа мощности:
✅ Размер эффекта - величина различия, которое мы пытаемся обнаружить. Например, разница средних, отношение шансов и т.д.
✅ Размер выборки - количество наблюдений в исследовании.
✅ Уровень статистической значимости (α) - порог, при котором результат считается статистически значимым (как правило, 0.05).
✅ Собственно мощность (1-β) - вероятность правильного обнаружения эффекта (β - ошибка 2 рода, как правило, не более 0.2).

Через размер эффекта и уровень значимости и используя специальные формулы можно рассчитать:
✅ Необходимый размер выборки для исследования при заданной мощности.
✅ Мощность статистического теста при заданном размере выборки.

Ошибки:
✅ Преувеличение размера эффекта - принятие нового метода лечения за очень эффективный, в то время как он оказывает лишь незначительное воздействие, может привести к проведению исследований с недостаточной мощностью. Например, задавая больше, чем есть отношение шансов, можно получить меньший, чем требуется на самом деле размер выборки для исследования.
✅ Игнорирование анализа мощности - неполучение значимых результатов, там где они есть (повышение риска ошибки 2 рода).
✅ Опора исключительно на p-уровень значимости - даже если результат статистически значим, это не всегда означает, что он практически значим.

👍2

81 viewsedited 07:32

статИИстик

Про распространенность и заболеваемость

Распространенность и заболеваемость - два ключевых эпидемиологических показателя, используемых для изучения заболеваний.
📈 Распространенность - доля населения, у которого обнаружено состояние (например, заболевание) в определенный момент времени или за определенный период. Распространенность охватывает все случаи конкретного заболевания или состояния, имеющиеся в популяции в определенное время или за определенный период. Сюда входят как новые случаи (заболеваемость), так и уже существующие, которые еще не разрешились или привели к смерти. Например, общее число наблюдающихся больных на конец календарного года.

📉 Заболеваемость - число новых случаев заболевания в популяции в течение определенного периода времени. Она отражает скорость возникновения новых случаев заболевания. Заболеваемость учитывает только новые случаи, возникающие в популяции, подверженной риску, в течение определенного периода времени. Например, число новых случаев заболевания в течение года.

Факторы, влияющие на распространенность:
📌 Продолжительность заболевания: большая продолжительность заболевания увеличивает его распространенность.
📌 Заболеваемость: более высокий уровень заболеваемости увеличивает распространенность.
📌 Уровень излеченности: более высокая частота излечения снижает распространенность.
📌 Смертность: более высокая смертность снижает распространенность.

Факторы, влияющие на заболеваемость:
📌 Воздействие факторов риска: более высокий уровень риска увеличивает заболеваемость.
📌 Эффективность профилактических мер: более эффективная профилактика снижает заболеваемость.
📌 Динамика численности популяции: изменения в численности и структуре популяции влияют на заболеваемость, повышая или понижая ее.

👍1

81 views09:23

статИИстик

Про причинно-следственный вывод (causal inference)

Причинно-следственный вывод - основополагающий принцип, лежащий в основе всех логических и философских рассуждений. Именно на его основании строится принятие решений в жизни, в том числе и в медицине. Вся диагностика и лечение больных основывается на причинно-следственном выводе. Проблема заключается в том, что статистический вывод не равно причинно-следственный вывод. Ни один метод статистического анализа не говорит об абсолютности причинно-следственной связи между явлениями, а лишь позволяет найти некие математические закономерности и ассоциации. Окончательное решение принимает исследователь. Тем не менее, в статистике существуют ряд подходов, чтобы сделать вывод о причинно-следственной взаимосвязи между явлениями было проще.

Рандомизированное контролируемое исследование (РКИ). Считается золотым стандартом для вывода о причинно-следственных связях, когда люди случайным образом распределяются по различным группам и наблюдается эффект от лечения.

Инструментальные переменные. В этом методе используется экзогенная переменная, которая не зависит от предикторной переменной и влияет на переменную результата только через предикторную переменную. Инструментальная переменная - переменная, которая коррелирует с эндогенной независимой переменной, но не связана напрямую с зависимой переменной. Она выступает в качестве "моста" между эндогенной переменной и членом ошибки, помогая изолировать причинный эффект независимой переменной на зависимую переменную (решить проблему эндогенности). При ее введении статистическая связь между зависимой и независимой переменной исчезает или сильно обслабевает в случае отсуствия истинной причинно-следственной связи.

Метод сопоставления оценок склонности

Проведение естественных экспериментов - дизайн исследования, в которой используются естественно возникающие события или обстоятельства для приближения к условиям контролируемого эксперимента. В естественном эксперименте исследователи используют ситуации, когда определенные условия или события имитируют случайное распределение участников по различным группам, аналогичное тому, что происходит в контролируемом эксперименте. Это позволяет исследователям изучать влияние определенной переменной или метода лечения на результат в реальных условиях. Однако, здесь следует учитывать риск bias

Контрфактический анализ, также известный как контрфактическое рассуждение или контрфактическое мышление, является фундаментальной концепцией в области причинных умозаключений и рассуждений. Он предполагает рассмотрение того, что произошло бы, если бы определенное событие, действие или условие не произошло или если бы был сделан другой выбор. Другими словами, контрфактический анализ позволяет исследовать сценарии "что-если", в которых прошлое развивалось бы по-другому. Это способ сравнения фактических результатов с гипотетическими, которые могли бы произойти при других обстоятельствах. Это не статистический тест! По сути, контрфактический анализ помогает исследователям сформулировать гипотезы о причинно-следственных связях, а статистические методы - проверить и количественно оценить эти гипотезы на основе данных. Сочетание контрфактического анализа и статистических методов позволяет исследователям делать значимые выводы о причинно-следственных связях в сложных реальных ситуациях.

Структурные причинно-следственные модели, известные также как причинно-следственные графические модели (диаграммы) или моделирование структурными уравнениями, представляют собой формальные схемы, используемые для представления и анализа причинно-следственных связей между переменными. Эти модели помогают исследователям понять, как переменные взаимодействуют и влияют друг на друга в сложных системах. Это не статистический тест сам по себе. Они позволяют концептуально и наглядно представить, как переменные взаимодействуют и влияют друг на друга в системе.

Больше информации здесь

92 views10:41

About

Blog

Apps

Platform