статИИстик
183 subscribers
75 photos
3 videos
162 links
О медицинской статистике и не только
Личные сообщения @glivec
Download Telegram
🔥Маркетплейс данных (будут добавляться) - приобретайте качественные и подготовленные данные для ваших научных исследований и экономьте 80% своего времени! dataclone.ru
Найди овечку 🐑
Про пошаговую регрессию backward и forward

Селекция предикторов (variable selection или future selection) во время построения модели регрессии может выполняться прямым и обратным пошаговым методом. Прямой (forward) метод - пошаговое добавление переменных к нулевой модели (без переменных, only intercept model). Обратный (backward) метод - пошаговое удаление предикторов из начальной модели, содержащей все переменные.

Прямой пошаговый отбор предпочтительнее, когда количество рассматриваемых переменных очень велико! Фактически, он будет рассматривать только модели с числом переменных меньше размера выборки (для линейной регрессии) и количества событий (для логистической регрессии).

Независимо от метода добавления/удаления переменных на каждом шаге происходит проверка либо значимости каждого из потенциальных предикторов, либо эффективности всей модели в целом - правило остановки. Как только правило выполняется создание модели останавливается. При прямом методе создание модели останавливается, когда включение в модель любой из оставшихся для рассмотрения переменных приводит к выполнению правила остановки. При обратном методе - создание модели останавливается, когда исключение из модели любой из переменных приводит к выполнению правила остановки.

Варианты правил остановки:
1. По фиксированному p-уровню значимости каждого из предикторов. Например, 0.05, 0.15, 0.20. Чем меньше размер выборки, тем больше должен быть уровень p. В модель включаются только переменные с p < порога.
2. По методу Вальда для каждого из предикторов. Метод Вальда можно использовать для проверки нулевой гипотезы о том, что истинный коэффициент регрессии для предиктора равен нулю, что указывает на то, что предиктор не является статистически значимым. Если p-значение для теста Вальда меньше заданного порога (например, 0.05), то нулевая гипотеза отклоняется, и предиктор считается статистически значимым.
3. По методу AIC (информационный критерий Акаике) для всей модели. Модель с наименьшим значением AIC считает наилучшей. Метод также чувствителен к размеру выборки. При малых размерах выборки отдается предпочтение моделям с большим числом переменных, что может привести к переобучению.
4. По методу BIC (Байесовский информационный критерий) для всей модели. Модель с наименьшим значением BIC считает наилучшей. BIC чувствителен к размеру выборки. Для небольших размеров выборки BIC может быть чрезмерно консервативным и неточно отражает соответствие модели данным. Это приведет к выбору менее сложных моделей, которые будут не такими точными, как более сложные модели. BIC основан на компромиссе между соответствием модели и ее сложностью, со штрафом для более сложных моделей. Это приведет к выбору более простых моделей, которые могут быть не такими точными, как более сложные модели.
5. По тесту отношения правдоподобия (Likelihood-ratio test). Модель с большим значением правдоподобия (likelihood) считается наилучшей.

Дополнительные критерии оценки качества модели: R2, C-index (AUC-ROC), RSME и SME (ошибки прогноза).

Общие минусы пошаговой регрессии:
1. Она не рассматривает все возможные комбинации потенциальных предикторов.
2. Коэффициенты регрессии, доверительные интервалы, p-значения и R2 имеют смещенные значения (не совсем соотвествующие действительным значениям: коэффициенты регрессии и R2 - больше, чем на самом деле; доверительные интервалы и p-значения - меньше, чем на самом деле).
3. Выдает нестабильный набор переменных, особенно когда у вас небольшой размер выборки. Легко проверить через процедуру бутстрепа.
4. Пошаговая регрессия не всегда выбирает наилучшую возможную комбинацию переменных. Обойти это невозможно!
👍3
статИИстик
Сравниваем уровень гемоглобина у онкологических пациентов с разной стадией заболевания c использованием one-way ANOVA теста.
🔥 Новый датасет с научными данными на dataclone.ru - 567 пациентов с множественной миеломой (20 параметров, включая данные о выживаемости). Именно на нем сделаны примеры по ANOVA и t-тесту в предыдущих постах.
Научные данные - это либо реальные данные с открытым доступом, которые были деперсонализированы, либо синтетические данные, сгенерированные с помощью алгоритмов, чтобы иметь такое же распределение, как у реальных данных. Все данные максимально подготовлены для анализа (произведено вменение пустых значений, где это возможно, выполнена чистка и структурирование). Вы можете использовать эти данные в комплексе со своими, чтобы увеличить размер выборки и мощность статистических тестов, либо самостоятельно в рамках учебного процесса и проверки собственных научных гипотез.
Про проблему субгрупповых анализов

Многие наверняка сталкивались с так называемым субгрупповым анализом, когда эффективность лечения проверяется в отдельно взятых группах пациентов, выделенных по тому или иному признаку. При этом еще рисуют так называемые форест-плот диаграммы. Например, а давайте посмотрим как наше лечение работает только в группе пациентов старше 60 лет, а давайте - в группе пациентов в неблагоприятным генетическим риском и т.д. 🙃

Первая проблема такого подхода заключаются в том, что часто это однофакторный анализ. Отношения шансов в таком анализе смещены (не скорректированы), так как они получены в несуществующих в реальности условиях. Во-вторых, распространенной ошибкой является вывод о том, что результаты одной подгруппы отличаются от результатов другой подгруппы, без фактической количественной оценки различий. Альтман и Блэнд (профессора статистики) как-то показали такой пример. Были представлены результаты лечения для двух подгрупп, в первой из которых терапия оказалось статистически значимо эффективной (отношение рисков 0.67, 95% ДИ 0.46-0.98, p=0.03), тогда как во второй - нет (ОР = 0.88, 0.71-1.08, p=0.2). Наивная и неверная интерпретация таких результатов строится на выводе, что лечение эффективно в первой подгруппе, но не во второй. Однако фактическое сравнение результатов между двумя этими подгруппами показало широкий доверительный интервал (ОР 0.76, 95%ДИ 0.49-1.17, p=0.2), что говорит об отсуствии убедительных доказательств, подтверждающих различный эффект лечения в разных подгруппах.
Если вы хотите оценить эффект лечения в разных подгруппах, то общей рекомендацией будет использовать многофакторный анализ, где подгруппы будут выступать в качестве независимых ковариат. Но тут важно не наступить на грабли дихотомии непрерывных ковариат и учитывать допущения к регрессионному или другому анализу, который вы будете использовать.
Термины в статистике важны, термины в статистике нужны. #глоссарий

Adjusting (корректировка или контроль переменной): скорректированная оценка влияния одной переменной на изучаемый исход с учетом влияния другой (вмешивающейся) переменной. Например, при изучении эффекта лечения на величину снижения артериального давления (АД), целесообразно также учитывать влияние возраста, прежде чем оценивать эффект самого лекарства. В данном случае возраст корректирует влияние терапии на исход. Это можно сделать в регрессионной модели или грубо разделить пациентов на возрастные группы (только не на 2, а на 10 частей по децилям) и оценить среднее снижение АД в каждой из них. Корректировка приводит к скорректированным отношениям шансов, скорректированным отношениям рисков и т.д.
👍3
Коллеги! Поздравляем всех с наступающим Новым Годом!
Желаем всем правильных доказательств научных гипотез, низкого риска систематических ошибок и больших мощностей ваших статистических данных.
Кстати, увеличить мощность ваших данных вам поможет dataclone.ru
👍3
И снова про p-уровень значимости

В вопросе выше правильный ответ "Если нулевая гипотеза верна, то вероятность получить такой же или более значимый результат = 6%". Другими словами, если вы совершили ошибку (ошибка 1 рода - найти различия там, где их нет), то вероятность ее повторить и будет p-уровнем значимости. Или еще короче, p-уровень значимости = вероятности дважды совершить ошибку 1 рода при повторении эксперимента. Из этого вытекают две проблемы:
1. Насколько эта вероятность (5%) большая или маленькая?! По сути вся частотная статистика, а значит и все выводы клинических исследований базируются на данном уровне вероятности. Лечение для больного выбирается с вероятностью ошибки верного решения 5% и она универсальна для всех клинических случаев, заболеваний и методов терапии. Но в реальной жизни, если бы ваш персональный выбор лечения и риск ошибки был равен 4.9% (<0.05), насколько он был бы приемлемым? Возможно кто-то захотел бы его уменьшить до 1% (0.01).
2. Порог 5% делит все многообразие решений на 2 категории: ДА (статистически значимо) и НЕТ (статистически не значимо). Возьмем два примера: в одном p=0.049, в другом p=0.051. В первом случае мы примем решение, во втором - нет. Но на самом деле вероятности отличаются лишь на 0.002 (0.2%). В реальной жизни мы считаем такие различия несущественными и не меняем своих решений.

Реальный пример. В рандомизированном клиническом исследовании терапия 'А' показала преимущество перед терапией 'В' по беспрогрессивной выживаемости, HR = 0.73, p=0.02. Это достаточное основание, чтобы одобрить применение терапии 'А' вместо терапии 'В' для определенной категории пациентов. При этом цена терапи 'А' = $3500 за одну инъекцию, а терапии 'В' = $40. Если посмотреть на абсолютные результаты: отличия в беспрогрессивной выживаемости через 24 мес. терапии составляют лишь 6%. Другими словами, только 6 пациентов из 100 получают преимущество по данному критерию. Цена же лечения для одного пациента выше в 87.5 раз. Общая выживаемость пациентов в обеих группах не отличалась. В данном случае лечение 'В' никак нельзя считать плохим. Лечение 'А' чуть лучше, но ценник явно нужно снизить.
👍4
#глоссарий
Allocation ratio (коэффициент распределения) - соотношение размеров выборок двух параллельных групп с двумя видами
лечения в исследовании (например, в рандомизированном). Чем коэффициент больше 1 (размеры групп равны), тем больше размер выборки требуется.
#глоссарий
ANOVA (дисперсионный анализ) - используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп. В случае двух групп ANOVA = t-тесту.

ANCOVA (ковариационный анализ) - комбинация ANOVA (дисперсионного анализа) и линейной регрессии, один из вариантов регрессионного анализа. Он имеет дело как с категориальными, так и с непрерывными переменными. Это специальный статистический метод для определения степени дисперсии одной переменной, вызванной изменчивостью других. Цель ANCOVA - определить, существует ли статистически значимое различие между тремя или более независимыми группами после учета одной или нескольких ковариат. Например, мы можем оценить влияет ли наше лечение (фактор) на уровень сахара в крови (зависимая переменная) с учетом возраста или возрастной группы (ковариата).
👍2
Часть лекарственных препаратов в медицине существует лишь потому, что кто-то когда-то смог отвергнуть нулевую гипотезу. Как правило, эти эксперименты оплачены большими деньгами. Другая часть появилась в результате p-хакинга.
#глоссарий
Ассоциация (Association) - взаимосвязь двух или более переменных, когда одна переменная влияет на другую через изменения в данных.

Корреляция (Correlation) - частный случай ассоциации, когда изменение одной переменной сопровождается измением другой. Корреляция не подразумевает причинно-следственной связи!

Причинно-следственная связь (Causation) - ассоциация, при которой одна переменная является причиной изменений другой. Главным критерием является возможность прогнозировать результат (следствие), при изменении значения в причинной переменной, при этом данный процесс имеет строгую направленность. Причинно-следственные связи бывает трудно установить из-за других факторов (вмешивающихся или спутывающих, сбивающих с толку переменных - confounding variables), которые также образуют ассоциации. Чтобы установить причинно-следственную связь, необходимо использовать экспериментальные методы, когда исследователь манипулирует независимой переменной и наблюдает ее влияние на зависимую переменную, контролируя другие спутывающие переменные. Причинно-следственная связь не всегда сопровождается корреляцией.

Регрессия (Regression) - метод описания ассоциации между зависимой и независимой переменными. Метод прогнозирования и предсказания результата через моделирование.

🦈🍦Например, нападение акул коррелирует с продажами мороженого. Причина того и другого - жаркая погода (люди купаются и едят мороженое)
👍2
#глоссарий
Data science (наука о данных) - однополый брак между статистикой и информатикой.
🎄С Рождеством всех, за исключением тех людей, у которых точность моделей на тестовых данных = 100%
🤣4
Про фундаментальную неопределенность

Почему ваша статистическая выборка никогда не будет полностью соответствовать генеральной совокупности, даже если вы собрали все имеющиеся в мире данные. Из-за фундаментальной неопределенности. Вы можете собрать все наблюдения изучаемого вами явления, но у вас не будет тех наблюдений, которые не произошли или не произойдут в будущем.
Фундаментальная неопределенность - тип неопределенности, которую нельзя устранить или уменьшить никакими известными средствами. Она возникает из-за фундаментальных ограничений нашего знания и понимания мира и часто связана с присущей определенным явлениям случайностью или непредсказуемостью.
Например, в квантовой механике принцип неопределенности Гейзенберга гласит, что принципиально невозможно одновременно знать с абсолютной точностью положение и импульс частицы. Это пример фундаментальной неопределенности, поскольку невозможно устранить или уменьшить эту неопределенность никакими известными средствами.
Другие примеры фундаментальной неопределенности включают непредсказуемость результата подбрасывания монеты, непредсказуемость точной траектории урагана и непредсказуемость точного времени землетрясения. Эти явления случайны и не могут быть предсказаны с абсолютной уверенностью в силу фундаментальной ограниченности понимания и предсказания природы вещей.
Поэтому в статистике не может быть ничего абсолютно точного, всегда используйте интервалы неопределенности.
👍2
Что может, а что не может категоризация

Категоризация (введение порога любым из методов) дает интерпретируемые оценки, такие как отношение шансов или рисков. Например, предположим, что вычисляется отношение шансов инсульта для лиц с систолическим артериальным давлением >160 мм рт. ст. по сравнению с лицами с артериальным давлением <= 160 мм рт.ст. В данном случае 160 - это порог. Интерпретация полученного отношения шансов будет зависеть от точного распределения артериального давления в выборке (доля субъектов >170, >180 и т.д.). Ведь если ошибиться с измерением, пациент может запросто попасть из одной группы в другую. Истинный риск инсульта у пациента с АД 161 мм.рт.ст. будет не сильно выше, чем у пациента с АД=159, однако ОШ может быть очень высоким, так как больные будут находиться в разных группах. С другой стороны пациент с АД 200 мм рт.ст. будет иметь намного более высокий риск инсульта, чем больной с АД=161, но при категоризации они будут находиться в одной группе риска. Введение порога отрывает нас от истинной картины мира. Когда оценивается риск инсульта у нового пациента с известным АД (скажем, 162), пациент не сообщает своему врачу «мое АД превышает 160», он скорее скажет о конкретном значении 162 мм рт.ст. Поэтому АД должно моделироваться (не обязательно линейно) как непрерывная переменная. Это позволит не только посчитать персональный риск от 0 до 1 для каждого пациента, но и оценить отношение шансов для точных настроек предиктора, например, отношение шансов для пациента с АД 200 мм рт.ст. по сравнению с АД 120 мм рт. Создание порогов (дихотомия данных) - частое и пагубное явление в анализе данных, которое называется дихотоманией.
👍2
#глоссарий
Правило Байеса: вероятность того, что событие A произойдет при случившемся событии B, равна вероятности события B при случившемся событии A, умноженная на (безусловную) вероятность события A, деленное на (безусловную) вероятность события B.
#глоссарий
Байесовская модель - статистическая модель, основанная на байесовском подходе к вероятности , который представляет собой интерпретацию вероятности, основанную на степени веры в событие. В байесовской модели вероятность интерпретируется как мера силы доказательств или веры в событие, а не как частота события, а статистический вывод основан на идее обновления наших предварительных убеждений о событии или новых доказательств или данных. Это делается с помощью теоремы Байеса, которая представляет собой математическую формулу, описывающую, как обновить вероятность события на основе новых данных.
Байесовские модели широко используются в различных областях, включая статистику и машинное обучение. Они особенно полезны в ситуациях, когда трудно получить большой объем данных или когда основной процесс генерирования данных сложен и неопределенен. Байесовские модели позволяют учитывать предварительные знания и субъективные убеждения о событии или параметре, что может быть полезно для создания более точных прогнозов или выводов.