статИИстик – Telegram

статИИстик

183 subscribers

75 photos

3 videos

162 links

О медицинской статистике и не только
Личные сообщения @glivec

Download Telegram

About

Blog

Apps

Platform

статИИстик

183 subscribers

статИИстик

Про p-хакинг

p-хакинг - желание всеми правдами и неправдами получить значение уровня p-значимости <0.05. p-хакинг - побочный эффект самого существования уровня p-значимости, стереотипная и неверная интерпретация которого сводится к различиям между данными, которые обязательно должны быть. Но на самом деле, занимаясь p-хакингом, "исследователь" не доказывает или опровергает научную гипотезу, а лишь пытается получить ложноположительный результат, что является катастрофой для любого научного вывода.

Признаки p-хакинга:
1. Прекращение сбора данных при получении p<0.05
2. Проведение множества измерений, но публикация только тех результатов, у которых p<0.05
3. Использование ковариат, у которых p<0.05
4. Исключение данных, которые мешают достичь p<0.05
5. Трансформация данных с целью получить p<0.05

👍1💯1

129 viewsedited 18:28

статИИстик

Цена дихотомии непрерывных (количественных) переменных

Категоризация (дихотомия) непрерывных переменных, чаще на 2 группы, - популярная тема, если не сказать повальная мода при работе с данными, в частности с медицинскими. Аргументом в пользу такого подхода является то, что это значительно упрощает статистический анализ и интерпретацию и представление результатов. Например, бинарное разделение количественной переменной позволяет сравнить группы с помощью t-теста или Хи2.

На самом деле вы получаете кучу проблем 💩:
1. Большая часть информации теряется, поэтому статистическая мощность для обнаружения связи между переменной и исходом пациента снижается. Дихотомия переменной по медиане снижает мощность на ту же величину, что и отбрасывание трети данных, что нецелесообразно, когда данных и так обычно мало.
2. Может, наоброт, повысится риск ложноположительного результата (ошибка I рода)
3. Недооценка степени различий между группами. Пациенты, близкие к точке отсечения, но находящиеся по разные стороны от нее, характеризуются как очень разные, а на самом деле они очень похожи!
4. Дихотомия нарушает любую линейную взаимосвязь между результатами, а при ее наличии гораздо эффективнее воспользоваться той же линейной регрессией.

Виды порогов (точек отсечения), которые используются при дихотомии:
1. Общепризнанные пороги, например, ИМТ 25 кг/м2 (на самом деле никаких математических оснований для данного порога никогда не существовало)
2. Точка отсечения из прошлого похожего исследования (скорее всего она неверна, поэтому ошибетесь и вы)
3. Выборочная медиана (только вот в разных выборках медианы будут разные)
4. Использование так называемой «оптимальной» точки отсечения (обычно дающей минимальное значение p-значимости), расчитанной разными способами (например, ROC-анализом). Очень высокий риск ложноположительного результата! Никогда не используйте данную стратегию!

Вместо категоризации непрерывных переменных сохраняйте их непрерывными - это лучшая стратегия!

👍6

132 viewsedited 18:48

статИИстик

🤔 https://telegra.ph/Oh-uzh-ehtot-ROC-analiz-12-16

Ох уж этот ROC-анализ

ROC-анализ – один из переоцененных методов прогнозной аналитики, представляет собой график (ROC-кривую), который иллюстрирует диагностическую способность системы бинарного классификатора при изменении его порогового значения. AUC (площадь под кривой) – гипотетическая…

👍1

129 views17:20

статИИстик

✍ Для экстраполяции результатов выборочной совокупности на генеральную (популяцию) мы должны оперировать интервалами неопределенности, в которые превращаются все частоты, медианы, средние, кривые выживаемости и т.д. Эти интервалы тем больше, чем меньше выборочная совокупность. В статистике, использующей частотный подход (классическая статистика) и байесовский подход (байесовская статистика) к теории вероятности, применяются на первый взгляд схожие, но разные интервалы неопределенности.

✅ Частотный подоход. Вероятность интерпретируется как утверждение о том, как часто должно происходить событие при многократных попытках.

95% Confidence interval (доверительный интервал) - если мы повторим эксперимент много раз, 95% значений результата будут находиться в данном интервале.

p-уровень значимости говорит нам о вероятности повторения таких же или более экстремальных результатов эксперимента при гипотетической верности нулевой гипотезы.

Все это не очень интуитивно понятно, тем не менее этим пользуется большинство исследователей.

✅ Байесовский подход интерпретирует вероятность как результат логических рассуждений о природе вещей и явлений. Такой подход становится весомее и более значимым при описании сложных моделей и явлений, нашей жизни в конце концов. Он позволяет не просто делать отдельные прогнозы, но и давать степень уверенности в прогнозах, находящихся в широком наборе вариантов. Байесовская статистика сообщает апостериорную вероятность события или явления в прямом понимании слова "вероятность". Это интуитивно более понятные вещи, тем не менее они менее распространены среди исследователей.

95% Credible interval (интервал достоверности, уверенности) - 95% вероятность, что результат в генеральной совокупности (популяции) будет находиться в данном интервале.

👍2

140 viewsedited 10:17

статИИстик

Как одним движением ножа разделить эти два яблока поровну на троих?

🤔1

128 viewsedited 20:34

статИИстик

Про Data Science

Data Science или наука о данных - дисциплина или область знаний, целью которой является извлечение пользы из данных. Включает в себя следующие разделы:

✅ Описательная статистика или аналитика (Descriptive Analytics и Data Mining) - сбор данных и разведочный анализ, предназначенный для обнаружения в данных закономерностей, формулировки гипотез в отношении процессов, вызывающих эти закономерности. На этом этапе не делаются выводы, а происходит поиск паттернов (закономерностей) в имеющихся данных, описывается и сравнивается их распределение.

✅ Статистический вывод (Statistical Inference) - принятие одного или нескольких решений с учетом неопределенности в отношении того, как и насколько хорошо проанализированные нами данные описывают соответствующую генеральную совокупность. На этом этапе делаются выводы, описываются причинно-следственные связи.

✅ Машинное обучение / искусственный интеллект (Machine Learning / Artificial Intelligence) - создание моделей и алгоритмов, которые можно использовать для принятия решений.

👍1

115 views17:18

статИИстик

Про статистические парадоксы

✅ Скрытая переменная. Прямая корреляция между переменными, которые по логике рассуждения должны коррелировать обратно или в целом не иметь причино-следственной связи.
Пример: вес пациента коррелирует с риском осложнений от проводимой химиотерапии. На самом деле риск связан с дозами лекарственных препаратов, которые увеличиваются с весом пациента.
Причина: наличие скрытой переменной, которую не учли.

✅ Парадокс Берксона ("смещение коллайдера"). Обратная взаимосвязь между переменными, противоречащая причино-следственной логике.
Пример: курение сигарет может защитить от COVID-19 (доля курильщиков среди тех, кто госпитализирован с COVID-19, была ниже, чем в целом в популяции). Например, в Китае, около 8% людей, находящихся в больнице с COVID-19, были курильщиками, а всего курят 26% населения.
Причина: анализ проводился только среди госпитализированных больных. Госпитализация - "переменная-коллайдер", с которой независимо друг от друга связаны как течение COVID-19, так и курение через другие заболевания легких и сердца. Таким образом, оба эти фактора повлияли на попадание пациента в выборку для анализа, которая не является случайной выборкой населения в целом. Тесты на COVID-19 у этих госпитализированных больных, вероятно, покажут более низкий уровень заражения среди курильщиков, чем среди некурящих, потому что первые также госпитализируются из-за заболеваний, связанных с курением, а не только с COVID-19. Это может объяснить отчеты нескольких исследований, в которых утверждается, что курение может защитить от инфекции COVID-19.

✅ Парадокс Симпсона. Тенденция, наблюдаемая в разных подгруппах, меняется на противоположную, когда эти группы объединяются.
Пример: положительный коэффициент регрессии переменной в однофактороном анализе меняется на отрицательный во многофакторном.
Причины: дисбаланс классов, маленький размер выборки, мультиколинеарность

113 viewsedited 21:57

статИИстик

Как оценить выживаемость пациентов при наличии конкурирующих событий и рисков

🤔 Конкурирующее событие - смерть пациента по другой причине, чем от изучаемого заболевания. Например, смерть больного раком от ишемической болезни сердца или несчастного случая. Вероятность такого события называется конкурирующим риском. Метод Каплана-Мейера не предназначен для учета конкурирующих событий и рисков, поэтому он, как правило, дает неточные оценки при анализе вероятности для конкретных событий.

Что можно сделать:
❌ Убрать таких пациентов из анализа. Это искажает результат и снижает размер выборки.
❌ Цензурировать таких пациентов датой смерти от других причин. Такой причинно-специфический подход возможен, но недостаточно информативен. Например, мы не сможем определить вероятность того, умер бы пациент, умерший от сердечного приступа, от изучаемого нами рака.
✅ Анализ конкурирующих рисков посредством кумулятивной функции инцидентности - оценка предельной вероятности для каждого конкурирующего события. Предельная вероятность определяется как вероятность того, что у пациентов действительно случилось интересующее нас событие, независимо от того, были ли они подвергнуты цензуре или потерпели неудачу из-за других конкурирующих событий. Аналогичные методу Каплан-Мейра кривые строятся снизу вверх из точки 0. Сравнение таких кривых проводится непараметрическим методом Грея (аналог log-rank теста) или полупараметрическим методом Файн-Грея (аналог Hazard Ratio).
Все эти методы доступны в основных статистических пакетах, включая R, STATA и SAS.

116 viewsedited 08:41

статИИстик

Про статистическую и клиническую значимость в медицинских исследованиях

Часто исследователи сосредоточены исключительно на значениях p и «статистической значимости» результата, чтобы определить, является ли сделанное открытие «важным», что может быть ошибкой.
Необходимо учитывать сам результат (например, различия в средних, отношение шансов или рисков) и соответствующие 95% доверительные интервалы в контексте потенциальной клинической значимости данного результата. Статистическая значимость часто не приравнивается к клинической значимости. Например, в крупном исследовании изучалась эффективность терапии, отношение рисков = 0.97, а 95%ДИ = 0.95 до 0.99. В этом случае эффект от лечения потенциально невелик (снижение рисков всего на 3%), даже если значение p меньше 0.05. И наоборот, отсутствие статистических доказательств не означает отсутствия клинической эффективности. Например, в небольшом исследовании эффективности терапии отношение рисков = 0.70 и 95%ДИ от 0.40 до 1.10, p>0.05. Величина эффекта от лечения потенциально велика, даже если значение p>0.05. Нужно увеличить размер выборки и повторить эксперимент.
Интерпретируйте результаты и делайте выводы в контексте клинической, а не статистической значимости!

👍1

135 viewsedited 09:30

статИИстик

🔥Маркетплейс данных (будут добавляться) - приобретайте качественные и подготовленные данные для ваших научных исследований и экономьте 80% своего времени! dataclone.ru

140 viewsedited 07:27

статИИстик

Найди овечку 🐑

132 views14:34

статИИстик

статИИстик pinned a photo

14:34

статИИстик

Про пошаговую регрессию backward и forward

Селекция предикторов (variable selection или future selection) во время построения модели регрессии может выполняться прямым и обратным пошаговым методом. Прямой (forward) метод - пошаговое добавление переменных к нулевой модели (без переменных, only intercept model). Обратный (backward) метод - пошаговое удаление предикторов из начальной модели, содержащей все переменные.

Прямой пошаговый отбор предпочтительнее, когда количество рассматриваемых переменных очень велико! Фактически, он будет рассматривать только модели с числом переменных меньше размера выборки (для линейной регрессии) и количества событий (для логистической регрессии).

Независимо от метода добавления/удаления переменных на каждом шаге происходит проверка либо значимости каждого из потенциальных предикторов, либо эффективности всей модели в целом - правило остановки. Как только правило выполняется создание модели останавливается. При прямом методе создание модели останавливается, когда включение в модель любой из оставшихся для рассмотрения переменных приводит к выполнению правила остановки. При обратном методе - создание модели останавливается, когда исключение из модели любой из переменных приводит к выполнению правила остановки.

Варианты правил остановки:
1. По фиксированному p-уровню значимости каждого из предикторов. Например, 0.05, 0.15, 0.20. Чем меньше размер выборки, тем больше должен быть уровень p. В модель включаются только переменные с p < порога.
2. По методу Вальда для каждого из предикторов. Метод Вальда можно использовать для проверки нулевой гипотезы о том, что истинный коэффициент регрессии для предиктора равен нулю, что указывает на то, что предиктор не является статистически значимым. Если p-значение для теста Вальда меньше заданного порога (например, 0.05), то нулевая гипотеза отклоняется, и предиктор считается статистически значимым.
3. По методу AIC (информационный критерий Акаике) для всей модели. Модель с наименьшим значением AIC считает наилучшей. Метод также чувствителен к размеру выборки. При малых размерах выборки отдается предпочтение моделям с большим числом переменных, что может привести к переобучению.
4. По методу BIC (Байесовский информационный критерий) для всей модели. Модель с наименьшим значением BIC считает наилучшей. BIC чувствителен к размеру выборки. Для небольших размеров выборки BIC может быть чрезмерно консервативным и неточно отражает соответствие модели данным. Это приведет к выбору менее сложных моделей, которые будут не такими точными, как более сложные модели. BIC основан на компромиссе между соответствием модели и ее сложностью, со штрафом для более сложных моделей. Это приведет к выбору более простых моделей, которые могут быть не такими точными, как более сложные модели.
5. По тесту отношения правдоподобия (Likelihood-ratio test). Модель с большим значением правдоподобия (likelihood) считается наилучшей.

Дополнительные критерии оценки качества модели: R2, C-index (AUC-ROC), RSME и SME (ошибки прогноза).

Общие минусы пошаговой регрессии:
1. Она не рассматривает все возможные комбинации потенциальных предикторов.
2. Коэффициенты регрессии, доверительные интервалы, p-значения и R2 имеют смещенные значения (не совсем соотвествующие действительным значениям: коэффициенты регрессии и R2 - больше, чем на самом деле; доверительные интервалы и p-значения - меньше, чем на самом деле).
3. Выдает нестабильный набор переменных, особенно когда у вас небольшой размер выборки. Легко проверить через процедуру бутстрепа.
4. Пошаговая регрессия не всегда выбирает наилучшую возможную комбинацию переменных. Обойти это невозможно!

👍3

150 viewsedited 16:53

статИИстик

статИИстик pinned a photo

19:25

статИИстик

статИИстик

Сравниваем уровень гемоглобина у онкологических пациентов с разной стадией заболевания c использованием one-way ANOVA теста.

🔥 Новый датасет с научными данными на dataclone.ru - 567 пациентов с множественной миеломой (20 параметров, включая данные о выживаемости). Именно на нем сделаны примеры по ANOVA и t-тесту в предыдущих постах.
⚠ Научные данные - это либо реальные данные с открытым доступом, которые были деперсонализированы, либо синтетические данные, сгенерированные с помощью алгоритмов, чтобы иметь такое же распределение, как у реальных данных. Все данные максимально подготовлены для анализа (произведено вменение пустых значений, где это возможно, выполнена чистка и структурирование). Вы можете использовать эти данные в комплексе со своими, чтобы увеличить размер выборки и мощность статистических тестов, либо самостоятельно в рамках учебного процесса и проверки собственных научных гипотез.

158 viewsedited 06:49

статИИстик

Про проблему субгрупповых анализов

Многие наверняка сталкивались с так называемым субгрупповым анализом, когда эффективность лечения проверяется в отдельно взятых группах пациентов, выделенных по тому или иному признаку. При этом еще рисуют так называемые форест-плот диаграммы. Например, а давайте посмотрим как наше лечение работает только в группе пациентов старше 60 лет, а давайте - в группе пациентов в неблагоприятным генетическим риском и т.д. 🙃

Первая проблема такого подхода заключаются в том, что часто это однофакторный анализ. Отношения шансов в таком анализе смещены (не скорректированы), так как они получены в несуществующих в реальности условиях. Во-вторых, распространенной ошибкой является вывод о том, что результаты одной подгруппы отличаются от результатов другой подгруппы, без фактической количественной оценки различий. Альтман и Блэнд (профессора статистики) как-то показали такой пример. Были представлены результаты лечения для двух подгрупп, в первой из которых терапия оказалось статистически значимо эффективной (отношение рисков 0.67, 95% ДИ 0.46-0.98, p=0.03), тогда как во второй - нет (ОР = 0.88, 0.71-1.08, p=0.2). Наивная и неверная интерпретация таких результатов строится на выводе, что лечение эффективно в первой подгруппе, но не во второй. Однако фактическое сравнение результатов между двумя этими подгруппами показало широкий доверительный интервал (ОР 0.76, 95%ДИ 0.49-1.17, p=0.2), что говорит об отсуствии убедительных доказательств, подтверждающих различный эффект лечения в разных подгруппах.
✅ Если вы хотите оценить эффект лечения в разных подгруппах, то общей рекомендацией будет использовать многофакторный анализ, где подгруппы будут выступать в качестве независимых ковариат. Но тут важно не наступить на грабли дихотомии непрерывных ковариат и учитывать допущения к регрессионному или другому анализу, который вы будете использовать.

167 viewsedited 18:19

статИИстик

Как вы интерпретируете p-уровень значимости = 0.06?

Anonymous Poll

Вероятность, что ваш результат ошибочный = 6%

Вероятность, что ваш результат получился случайно = 6%

Вероятность, что нулевая гипотеза верна = 6%

Если нулевая гипотеза верна, то вероятность получить такой же или более значимый результат = 6%

Ни один из вариантов

21 voters137 views18:51

статИИстик

Термины в статистике важны, термины в статистике нужны. #глоссарий

✍ Adjusting (корректировка или контроль переменной): скорректированная оценка влияния одной переменной на изучаемый исход с учетом влияния другой (вмешивающейся) переменной. Например, при изучении эффекта лечения на величину снижения артериального давления (АД), целесообразно также учитывать влияние возраста, прежде чем оценивать эффект самого лекарства. В данном случае возраст корректирует влияние терапии на исход. Это можно сделать в регрессионной модели или грубо разделить пациентов на возрастные группы (только не на 2, а на 10 частей по децилям) и оценить среднее снижение АД в каждой из них. Корректировка приводит к скорректированным отношениям шансов, скорректированным отношениям рисков и т.д.

👍3

120 views08:20

статИИстик

☃ Коллеги! Поздравляем всех с наступающим Новым Годом!
Желаем всем правильных доказательств научных гипотез, низкого риска систематических ошибок и больших мощностей ваших статистических данных.
Кстати, увеличить мощность ваших данных вам поможет dataclone.ru

👍3

125 views08:27

статИИстик

И снова про p-уровень значимости

В вопросе выше правильный ответ "Если нулевая гипотеза верна, то вероятность получить такой же или более значимый результат = 6%". Другими словами, если вы совершили ошибку (ошибка 1 рода - найти различия там, где их нет), то вероятность ее повторить и будет p-уровнем значимости. Или еще короче, p-уровень значимости = вероятности дважды совершить ошибку 1 рода при повторении эксперимента. Из этого вытекают две проблемы:
1. Насколько эта вероятность (5%) большая или маленькая?! По сути вся частотная статистика, а значит и все выводы клинических исследований базируются на данном уровне вероятности. Лечение для больного выбирается с вероятностью ошибки верного решения 5% и она универсальна для всех клинических случаев, заболеваний и методов терапии. Но в реальной жизни, если бы ваш персональный выбор лечения и риск ошибки был равен 4.9% (<0.05), насколько он был бы приемлемым? Возможно кто-то захотел бы его уменьшить до 1% (0.01).
2. Порог 5% делит все многообразие решений на 2 категории: ДА (статистически значимо) и НЕТ (статистически не значимо). Возьмем два примера: в одном p=0.049, в другом p=0.051. В первом случае мы примем решение, во втором - нет. Но на самом деле вероятности отличаются лишь на 0.002 (0.2%). В реальной жизни мы считаем такие различия несущественными и не меняем своих решений.

Реальный пример. В рандомизированном клиническом исследовании терапия 'А' показала преимущество перед терапией 'В' по беспрогрессивной выживаемости, HR = 0.73, p=0.02. Это достаточное основание, чтобы одобрить применение терапии 'А' вместо терапии 'В' для определенной категории пациентов. При этом цена терапи 'А' = $3500 за одну инъекцию, а терапии 'В' = $40. Если посмотреть на абсолютные результаты: отличия в беспрогрессивной выживаемости через 24 мес. терапии составляют лишь 6%. Другими словами, только 6 пациентов из 100 получают преимущество по данному критерию. Цена же лечения для одного пациента выше в 87.5 раз. Общая выживаемость пациентов в обеих группах не отличалась. В данном случае лечение 'В' никак нельзя считать плохим. Лечение 'А' чуть лучше, но ценник явно нужно снизить.

👍4

115 views12:28

статИИстик

#глоссарий
✍ Allocation ratio (коэффициент распределения) - соотношение размеров выборок двух параллельных групп с двумя видами
лечения в исследовании (например, в рандомизированном). Чем коэффициент больше 1 (размеры групп равны), тем больше размер выборки требуется.

106 views09:43