статИИстик
183 subscribers
75 photos
3 videos
162 links
О медицинской статистике и не только
Личные сообщения @glivec
Download Telegram
Про величину эффекта, статистическую мощность и размер выборки

Величина эффекта - насколько отличается изучаемое событие или явление между сравниваемыми группами или насколько сильно оно меняется под воздействием какого-либо фактора (ов). Например, разница арифметических средних возрастов между двумя группами пациентов или отношение рисков в анализе общей выживаемости между группами больных, получавших и не получавших новое лечение.
Величина эффекта может быть статистически значимой, но не клинически значимой. Например, новое лечение статистически значимо может снижать вероятность рецидива рака на 2%, но вряд ли такой эффект имеет большое клиническое значение.

С величиной эффекта напрямую связана статистическая мощность - шансы (вероятность), что мы увидим статистический значимый сигнал, когда он действительно есть. Поэтому чем больше мощность, тем лучше! Рекомендуемая мощность статистического теста должна быть 80% и выше. Чем ниже мощность, тем сложнее обнаружить слабые эффекты или, наоборот, чем меньше величина эффекта, тем большая мощность статистического теста требуется. Мощность, в свою очередь, зависит от размера выборки! Слабые эффекты можно обнаружить лишь на достаточно больших по размеру выборках. Эксперименты же с низкой мощностью могут обнаружить только большой по величине эффект, который скорее всего при этом будет преувеличен, чем он есть на самом деле.

Публикация маломощных исследований приводит к публикационному смещению (что можно увидеть при проведении мета-анализа) - игнорирование отрицательных результатов и публикация результатов с преувеличенным эффектом приводит к искажению истинного усредненного результата изучаемого явления в сторону ошибки 1 рода. Например, если ученые публикуют только те исследования, в которых они нашли доказательства эффективности некой терапии на исход заболевания X и не публикуют работы с отрицательными результатами, независимый мета-анализ покажет, что данная терапия действительно работает лучше, чем есть на самом деле.

В медицине величины эффектов, как правило, низкие или средние, поэтому для их обнаружения нужны большие по размеру выборки. Когда вы планируете исследование, вы заранее должны предположить величину изучаемого эффекта, которую вы хотите найти. Это будет важной частью вашей научной гипотезой! Зная величину эффекта и статистический тест, который вы решите использовать для его обнаружения с заданной величиной мощности, например =0.8, можно рассчитать требуемый размер выборки, воспользовавшись специальным калькулятором для данного вида анализа. Например, так поступают при планировании клинических исследований, рассчитывая число пациентов для каждой группы сравнения.
2🔥1
Новости медицинской (и не только) науки

😱 Громкий скандал в онкологическом институте Дана-Фарбер (Бостон, США). Это, мягко скажем, очень плохой пиар для них... По последним данным 6 научных работ, опубликованных их исследователями, отзываются, а 31 исправляется после того, как один специалист по анализу данных обнаружил массу доказательств манипуляций с изображениями. В основном это фотошоп изображений вестерн-блотов, и хотя некоторые из них могут быть просто ошибкой... многие из них - явное мошенничество. Возможно, дальше будет хуже. Короче "позор" - и это в одном из лучших исследовательских институтов США!

🧐 Новое исследование показывает, как модели клинического прогнозирования могут быть удивительно "круты" в рамках набора данных, на котором они были обучены... но затем оказываются совершенно бесполезными при прогнозировании на выборках данных, не участвоваших в обучении из-за подгонки по всем параметрам. Много раз уже говорил, что нельзя просто так взять и сделать качественную прогностическую модель, работающую в реальных условиях.

😡 Появились доказательства того, что так называемые "бумажные фабрики" (организации, заполняющие научные журналы фальшивыми статьями, предположительно продавая авторство ученым, которые хотят улучшить свое резюме без особых усилий) подкупают редакторов журналов, чтобы те предоставили им возможность публиковаться. В РФ такие тоже есть.

🙉 Опубликовано исследование, в котором 53.7% из 6200 опрошенных медицинских работников из Китая заявили, что совершали те или иные научные махинации, другими словами недобросовестно относились к научным исследованиям. Интересно как обстоят дела в России 😏.

🤖 Вы можете подумать, что воспроизвести результаты симуляционных исследований очень просто. В конце концов, это же всего лишь компьютерный код, верно? Это все in silico! Не нужно возиться с пипеткой или, не дай бог, иметь дело с живыми людьми! Но зачастую все не так просто, согласно этому исследованию. В нем содержится несколько советов о том, как сделать ваше симуляционное исследование лучше.

😬 Препринт о чрезмерной нагрузке на научные журналы. Ученые все больше ошеломлены объемом публикуемых статей. Общее количество статей, индексируемых в Scopus и Web of Science, за последние годы выросло в геометрической прогрессии; в 2022 году общее количество статей стало на 47% выше, чем в 2016 году, что опередило рост числа практикующих ученых, если таковой вообще был за это время.
👍2🔥1
Про мультиколлинеарность в регрессионном анализе

Мультиколлинеарность - явление, когда две или более предикторных переменных сильно коррелируют между собой. Это означает, что они изменяются вместе, что затрудняет выделение их индивидуального влияния на переменную отклика (исход).

Проблемы:
Мультиколлинеарность может увеличить дисперсию коэффициентов регрессии, что приводит к менее надежным оценкам.
Мультиколлинеарность может привести к ошибочным p-значениям для предикторов, предполагая, что переменная незначима, когда она значима, или наоборот.
Мультиколлинеарность снижает статистическую мощность регрессионной модели.

Признаки мультиколлинеарности:
Высокие коэффициенты инфляции вариации (VIF): VIF > 10 часто считается признаком мультиколлинеарности, но некоторые авторы предлагают более низкий порог, например 5.
Пары предикторов с высокими коэффициентами корреляции, обычно >=0.8 (при построении матрицы попарной корреляции).

Способы устранения мультиколлинеарности:
Удалить одну из коррелирующих переменных (выбирайте, основываясь на знаниях предметной области, или ту, которая вносит меньший вклад в модель).
Объединить коррелирующие переменные (например, сделать комбинированный показатель).
Уменьшить размерность данных (например, использовать метод главных компонент).
Использовать другие варианты регрессионного анализа с методами регуляризации (гребневая регрессия, регрессия Лассо).

Дополнительно:
Даже если переменные коррелируют между собой, они могут иметь различное влтияние в реальных сценариях. Поэтому принимая решение об удалении той или иной переменной из анализа, учитывайте знания предметной области и практический контекст ситуации. Если ваша цель прогнозирование, удаление коллинеарных переменных может не потребоваться, если это сильно ухудшает качество модели.
1
Изучение классической частотной статистики должно начинаться с понимания p-уровня значимости. Как только вы поймете, что p-уровень статистической значимости это вероятность, относящаяся к наблюдаемым данными, а не вероятность того, что гипотеза верна, вы уже будете работать значительно лучше, чем большинство ваших коллег.
📚 В России около 6000 научных журналов, подавляющее большинство которых издается на русском языке и пользуются популярностью среди ученых страны. Исследование 2019 года показало, что российские авторы публикуют в отечественных журналах гораздо больше работ, чем, например, их коллеги в Польше, Германии или Индонезии. Но стандарты зачастую низкие. Например, в марте 2018 года исследователи портала «Диссернет» , занимающающегося чисткой отечественных научных работ от некачественного контента, выявили более 4000 случаев плагиата и сомнительного авторства среди 150 000 статей примерно в 1500 журналах.
В сентябре 2019 года портал Антиплагиат, проанализировав 4.3 миллиона русскоязычных исследований, обнаружил, что более 70 тысяч из них были опубликованы как минимум дважды; некоторые были опубликованы целых 17 раз! Большинство случаев связано с самоплагиатом.
Более подробно о проблемах с отечественными научными публикациями можно почитать здесь.
👍1
Про самые распространенные распределения вероятностей

В мире данных существуют повторяющиеся закономерности, что делает возможным создание прогностических моделей, машинное обучение и ИИ. По сути применяя машинное обучение, включая нейронные сети, мы пытаемся моделировать закономерности в данных. Хорошая модель может предсказать невидимые значения данных, которые являются частью исходного их распределения.

Самые распространенные распределения вероятностей и где они встречаются в природе:

Симметрия и нормальное распределение - природа любит баланс. Вы видите его в узорах крыльев бабочек, лицах и в физических законах. Природные явления, демонстрирующие симметрию, часто хорошо согласуются с нормальным распределением.

Центральная предельная теорема говорит нам, что совокупность средних значений многих независимых, одинаково распределенных переменных приближается к нормальному распределению. Эти распределения характеризуются средним значением и стандартным отклонением, и все, начиная от роста человека, уровня IQ и заканчивая скоростями молекул в газе, подчиняется нормальному распределению.

Логнормальное распределение - если логарифм переменной следует нормальному распределению, то сама переменная имеет логнормальное распределение. Распределение финансовых активов или размеры частиц, образующихся при их измельчении, артериальное давление и скорость метаболизма в различных организмах часто следуют логнормальному распределению. Логнормальное распределение часто возникает в процессах мультипликативного роста, когда переменная многократно умножается на некоторый случайный фактор.

Равномерное распределение. Все исходы одинаково вероятны. Например, бросок игральной кости или выбор карты из хорошо перетасованной колоды соответствует равномерному распределению.

Распределение Пуассона - описывает вероятность того, что заданное количество событий произойдет за определенный промежуток времени или пространства. События должны происходить с известной постоянной средней скоростью и независимо друг от друга. Оно подходит для прогнозирования редких событий. Распределение Пуассона моделирует количество распадов радиоактивного атома за определенный промежуток времени или количество автомобилей, проезжающих через определенную точку за определенный промежуток времени. Пример из медицины.

Распределение Бернулли - дискретное распределение вероятностей, которое моделирует один эксперимент с ровно двумя исходами, часто называемыми "успех" и "неудача", и характеризуется единственным параметром p, вероятностью успеха. Подбрасывание монеты, генетическое наследование (у вас либо есть признак, либо нет) и поляризация одного фотона (вертикальная или горизонтальная) моделируют это распределение.

Биномиальное распределение описывает количество успехов в фиксированном числе независимых испытаний Бернулли, каждое из которых имеет одинаковую вероятность успеха. Например, с помощью этого распределения можно смоделировать количество орлов при многократном подбрасывании монеты.

Экспоненциальное распределение моделирует время ожидания следующего события в сценариях, где события происходят независимо и с постоянной средней скоростью. Его часто используют для описания таких явлений, как время между прибытием автобуса или интервалы между событиями радиоактивного распада.
По сути это распределение для понимания "времени ожидания" в различных природных и искусственных системах.

Существуют и другие распределения ...
🔥1
Почему мы часто верим лекторам на конференциях, даже если они ошибаются

Присутствуя на научных конференциях мы зачастую абсолютно доверяем информации от тех, кто ее презентует в виде выступлений, докладов и дискуссий. На самом деле, если мероприятие серьезное, как может быть иначе. Вряд ли нас хотят обмануть сознательно. Однако, быват так, что лектор ошибается неспециально или в связи с недостаточной компетентностью в освящаемом им вопросе. В итоге слушатели получают недостоверную информацию и принимают ее к сведению.
Причины того, почему это происходит:
1. Отсутствие критического мышления. Полностью доверять никому нельзя и это не шутка! Если тема вам действительно интересна и важна, найдите первоисточник(и), прочтите его и попытайтесь разобраться самостоятельно. Как минимум вы укрепите свои знания в данной области. Многие не следуют данному совету.
2. Лень. Это одна из банальных причин отсутствия критического мышления, указанного в пункте 1 или самообразования.
3. Эффект Барнума-Форера - тенденция людей безоговорочно верить в информацию, которая касается непосредственно их и иллюстрирует их с лучшей стороны. Эффект получил название благодаря американскому шоумену Финеасу Барнуму, который устраивал представления, используя многочисленные психологические манипуляции. Второе название - эффект Форера - происходит от фамилии психолога Бертрама Форера, который исследовал технику, применяемую Барнумом. В 1948 году Форер провел эксперимент: каждому из своих студентов психолог написал персональную характеристику, основываясь на анализе личности, а затем попросил оценить точность описания по пятибалльной шкале. Средняя оценка, которую дали студенты, равнялась 4.26. Однако суть эксперимента заключалась в том, что на самом деле Форер дал всем абсолютно идентичный текст, который он позаимствовал из гороскопа. Этот эксперимент многократно повторяли и другие исследователи в многочисленных вариациях, однако результаты были неизменными: испытуемые склонны верить в информацию, которую им предоставляют. Эффект Барнума-Форера прекрасно работает в астрологии, гадании, гомеопатии. Экстраполируя его на научные конференции необходимо соблюдение 3-х главных условий:

1) Слушатель должен быть убежден, что материал был подготовлен специально для него. Собственно он и его коллеги для этого и собрались вместе.
2) Слушателю необходимо чувствовать, что доклад делает авторитетная для него личность. Как правило, на конференциях выступают ключевые лидеры мнений в данной области.
3) Полученная информация должна давать преимущественно положительные оценки. Например, что новое лечение эффективно и это было показано в клинических исследованиях. При этом некоторые важные детали, например статистического характера, которые могут приуменьшить WOW эффект, часто замалчиваются.
❤‍🔥1
Рекомендации по описанию статистических данных в медицине

В зависимости от распределения количественных переменных укажите либо среднее значение и стандартное отклонение, либо медиану и IQR (при ассиметричном распределении: среднее/стандартное отклонение <2). Гистограммы распределения хорошо иллюстрируют данные.

При построении прогностических моделей проверьте все допущения (assumptions) к используемым статистическим методам.

Указывайте точное значение p (например, p=0.032, а не p<0.05). Однако можно использовать неравенство p<0.0001 при очень малых значениях p.

Не сообщайте о результатах анализа как об "отсутствии эффекта" при статистической незначимости, за исключением случаев, когда все эффекты внутри интервальной оценки являются клинически незначимыми или когда величина эффекта приближается к нулю

Интерпретируйте результаты на основе их клинической (практической) значимости с учетом оценки 95% доверительного интервала.

Выявляйте факторы (конфаундеры), искажающие результаты, на основе вашей экспертной оценки исходной информации, логически рассуждая о причинно-следственных связях, а не на основе статистических тестов и значимости.

Если доля пропущенных значений в данных достаточно высока, чтобы повлиять на результаты, используйте методы, выходящие за рамки простого удаления неполных записей, например, множественное вменение.

Оценивайте наличие и устраняйте ошибки в данных с помощью методов, разработанных для этой цели.

Если частота изучаемого исхода высока, сообщайте об отношениях риска или разнице рисков вместо отношений шансов. Нереально большие показатели отношения шансов с широкими интервалами (например, отношение шансов >10 с пределами 2 и 50) указывают на проблемы с данными, которые можно уменьшить с помощью регрессий со штрафными коэффициентами или байесовских методов.

Оценивайте аддитивные взаимодействия (эффект двух или более факторов в модели просто складывается), а не только мультипликативные (эффект факторов в модели умножается). Другими словами не занимайтесь дихотомией количественных переменных по порогу перед созданием моделей. Чтобы оценить возможный аддитивный эффект, лучше не делить переменную на категории, а оставить ее в первоначальном количественном виде. Если исходная переменная является количественной, а вы делите ее на две категории, то в этом случае в модели будет оцениваться мультипликативный эффект взаимодействия.
👍3
Про цель и дизайн научного исследования

От правильного описания цели, задач, дизайна и выборок данных зависит качество исследования и правильная интерпретация его результатов. При планировании или описании научного исследования следует руководствоваться описанными ниже базовыми принципами:

Цель, дизайн исследования и выборка данных должны быть четко описаны, что позволит оценить валидность (пригодность применения методик и результатов исследования в конкретных условиях) и экстраполируемость полученных выводов. Это важно в случае публикации в научных журналах и для понимания читателями.

Цель исследования может быть описательной (описать какое-то явление/феномен), прогностической (предсказать риск исхода), объясняющей причинно-следственные связи или смешанной. Цель должна отражать суть исследования в изучении конкретного главного вопроса.

Дизайн - описание типа исследования, он должен быть подробно описан. Примеры дизайнов: рандомизированное клиническое исследование, когортное (продольное), случай-контроль и поперечное исследование.
Поперечное исследование (cross-sectional study) - исследование, в котором собираются данные о болезнях или состояниях здоровья в определенный момент времени.
Продольное исследование (cohort study) - долгосрочное исследование, в котором выборка людей наблюдается на протяжении времени с целью изучения факторов риска заболеваний и исхода заболевания.
Важно описать процедуру рандомизации, период наблюдения, формирование выборки и контрольной группы при наличии.

Выборка относится к исходной генеральной совокупности данных и целевой популяции, к которой потом можно будет приложить результаты исследования. Это важно для обобщаемости и экстраполируемости полученных результатов. Размер выборочной совокупности имеет решающее значение для последующих выводов. Исходная популяция - источник данных для анализа, целевая - та, к которой будут обобщены результаты. Важно указать критерии включения/исключения для формирования выборочной совокупности в исследовании.
2
Про виды аналитики данных

Описательная аналитика
Отвечает на вопрос "Что произошло?". Методы описательной аналитики обобщают и характеризуют массив данных (описание распределения данных, сравнение распределений).

Диагностическая аналитика
Отвечает на вопрос "Почему это произошло?". Диагностическая аналитика помогает ответить на вопросы о причинах произошедшего и является следующим шагом в аналитике данных после описательной статистики. Включает в себя: определение аномалий в данных, выявление взаимосвязей и тенденций, объясняющих эти аномалии.

Предиктивная аналитика
Отвечает на вопрос "Что произойдет в будущем?". Методы прогнозной аналитики включают в себя статистические методы и методы машинного обучения, такие как нейронные сети, деревья решений и регрессинный анализ и др.

Предписывающая аналитика
Отвечает на вопрос "Что делать для решения задачи?" на основе данных в условиях неопределенности. Например, такие методы используются в медицинских системах поддержки приянтия решений.

Когнитивная аналитика
Отвечает на вопрос "Как лучше всего решать проблему?". Когнитивная аналитика объединяет подходы искусственного интеллекта и машинного обучения с возмодностью переобучения и/или самообучения.
👍21👎1
Про пересекающиеся кривые выживаемости

Если кривые выживаемости Каплан-Мейера пересекаются (перекрываются) это затрудняет применение таких статистических тестов, как log-rank и Cox (возможно нарушение допущения о пропорциональных рисках - относительный риск меняется со временем). В этом случае log-rank тест лучше заменить на критерий Гехана (Gehan) или критерий Уилкоксона (Wilcoxon). Считается, что предположение о пропорциональных риска не выполняется (нельзя использовать Hazard ratio), если кривые выживаемости пересекаются в течение значительного (более четверти от начала измерения) периода наблюдения. Если период времени, в течение которого кривые выживаемости пересекаются, составляет менее 1/4 от общего периода наблюдения, то такое пересечение можно считать несущественным. Тем не менее, в случае пересечения кривых выживаемости и высокой вероятности нарушения пропорциональности рисков лучше использовать альтернативные методы анализа, такие как разница ожидаемой продолжительности жизни (LE) и коэффициент ожидаемой продолжительности жизни (LER), которые являются взаимодополняющими абсолютными и относительными показателями и которые можно рассчитать для любой формы кривых выживания.
2👍2
Кратко про обобщенные аддитивные модели (Generalized Additive Models - GAM)

Это гибкие регрессионные модели, которые могут отражать нелинейные взаимосвязи. Идеальный вариант для тех случаев, когда данные - не просто прямая линия! Вместо того чтобы подгонять прямую линию (или плоскость), GAM подгоняет данные под плавные кривые. GAMs используют функции сглаживания - математические конструкции, которые позволяют учесть изгибы и повороты в отношениях между предикторами и результатом. Например, сплайны. Тем не менее, большая гибкость иногда может привести к чрезмерной подгонке модели. Когда модель слишком соответствует обучающим данным, она плохо работает на новых данных. Это все равно что заучить ответы на тест, но провалиться на настоящем экзамене, где будут другие вопросы. Для борьбы с переобучением используются штрафные функции (внутренний контроль излишней подгонки модели). Интерпретация GAM может быть довольно интуитивной. Вы получаете наглядные графики, показывающие влияние каждого предиктора на результат.
#глоссарий
Статистический глоссарий для исследований с причинно-следственными выводами

Причинно-следственная диаграмма (ориентированный или направленный ациклический граф, DAG) - диаграмма, показывающая причинно-следственные связи между переменными (узлами) с помощью направленных стрелок. Отсутствие стрелки между двумя узлами означает отсутствие прямого причинного эффекта.
DAG используется для моделирования и визуализации причинно-следственных отношений между событиями, условиями и результатами. Вершины в DAG представляют события, факторы или состояния, а рёбра между ними - причинно-следственные связи.
При этом DAG должен удовлетворять следующим условиям:
➡️ Направленность рёбер показывает направление причинно-следственной связи - из одной вершины в другую.
➡️ Отсутствие циклов, так как причина не может быть следствием самой себя.
➡️ Каждая вершина может иметь несколько предшествующих причин и несколько следствий.
👍1👎1
Ассоциация - статистическая зависимость, относящаяся к любой взаимосвязи между двумя переменными. Например, корреляция, отношение шансов, любой вид регресии ...

Мера ассоциации - величина взаимосвязи между двумя переменными, либо в абсолютном, либо в относительном выражении. Абсолютные меры ассоциации: разность рисков, разность частот. Относительные меры ассоциации - соотношения мер, например, отношение рисков, отношение шансов.

Коллайдер - переменная, являющаяся общим следствием двух других переменных.

Модификатор эффекта - переменная, которая может изменять (модифицировать) силу влияния основного фактора (воздействия) на исходное событие. Наличие сопутствующих заболеваний может менять влияние основного диагноза на прогноз. Например, сахарный диабет ухудшает прогноз при инфаркте миокарда. Модификатор эффекта не является причиной исхода, но может влиять на силу связи между фактором риска и исходом, усиливая или ослабляя ее.

Конфаундер - переменная, которая одновременно влияет как на предполагаемую причину, так и на исходное событие/результат. Она спутывает или искажает взаимосвязь между фактором риска и исходом. Например, курение и пассивное курение оба влияют на риск рака легких. Пассивное курение - конфаундер, искажающий связь активного курения с раком.

Медиатор - переменная, которая появляется под воздействием независимой переменной и сама влияет на зависимую переменную. Она лежит на пути причинно-следственной цепи. Например, курение (воздействие) повышает уровень холестерина (медиатор), что в свою очередь увеличивает риск инфаркта (исход).

Конфаундирование - искажение результатов исхода из-за действия конфаундера.

Корреляция - любая монотонная взаимосвязь между переменными. Функция корреляции монотонно возрастает или убывает, то есть при увеличении/уменьшении одной переменной, другая переменная также непременно увеличивается или убывает.

Эффект (или причинный эффект) - изменение в результирующей переменной (В), обусловленное вмешательством или изменением в предшествующей переменной (А). Для того, чтобы говорить об причинном эффекте и делать причинный вывод (Causal inference), необходимо выполнение следующих критериев:
- изменение в переменной А должно предшествовать изменению в переменной B во времени
- изменение в A должно быть связано с изменением в B причинно-следственными, а не случайными связями
- эффект должен проявляться на уровне отдельных наблюдениий/испытуемых. То есть при изменении А у конкретного объекта должно наблюдаться изменение В
- эффект оценивается на популяционном уровне как разница в среднем изменении В между группами с разным уровнем А.
"Золотым стандартом" оценки причинного эффекта являются рандомизированные клинические исследования.

Нулевая гипотеза - гипотеза, которая выдвигается как предполагаемый факт для проверки, часто соответствует отсутствию ассоциации между двумя переменными в популяции.

Меры проявления заболевания - числовые показатели, характеризующие заболевание в популяции: распространенность, заболеваемость, инцидентность (вероятность возникновения НОВОГО случая заболевания за определенный период во времени), риск.

Склонность к ошибке при недостатке данных (Sparse-data bias) - искажение результатов, возникающее вследствие недостатка данных и приводящее к недостоверным оценкам величины эффекта. Это проблема любых прогностических моделей, которые строятся на малых выборках.
👍2
Про коэффициент корреляции Мэтьюса - Matthews correlation coefficient (MCC)

Используется в задачах прогнозирования и оценки точности прогноза. Он позволяет оценить, насколько прогноз хорошо соответствует фактическим результатам, учитывая:

Верные положительные прогнозы (True Positives - TP) - случаи, когда событие наступило и модель его предсказала.
Ложные положительные прогнозы (False Positives - FP) - случаи, когда событие не наступило, но модель предсказала его.
Верные отрицательные прогнозы (True Negatives - TN) - случаи, когда событие не наступило и модель верно предсказала этот факт.
Ложные отрицательные прогнозы (False Negatives - FN) - случаи, когда событие все-таки наступило, но модель этого не предвидела.

Формула Мэтьюса учитывает все эти случаи, давая общую оценку точности прогнозирования. Чем ближе коэффициент к 1, тем лучше прогноз.
👍2
p-уровень значимости - краеугольный камень классической частотной (фриквентисткой) статистики

Примерно 100 лет назад статистик Рональд Фишер несколько произвольно предложил считать порогом статистической значимости превышение p-значения <0.05 (<1 к 20 - что сродни 95%-ному доверительному интервалу). Этот порог часто обсуждался и обсуждается до сих пор с момента его введения, но он выдержал испытание временем, и используется по настоящее время, в том числе в медицине. Но для большинства исследователей все свелось к тому, что конкретное "пороговое" значение p-value, например =0.05, считается каким-то священным числом. И это большая проблема!

p-уровень статистической значимости не говорит нам о том, "сработало" ли лечение или нет, если был достигнут этот порог!
p-уровень статистической значимости не должен рассматриваться как черно-белый дихотомический критерий того, следует ли считать результат клинически (практически) значимым или нет!

Желание исследователей показать, что наблюдаемые ими различия "реальны", привело к тому, что многие идут на махинации, чтобы их результаты достигли порога статистической значимости. Например, некоторых исследователей так сильно это волнует, что они указываю p-значение с большим количеством десятичных знаков (например, 0.0498), чтобы убедиться, что их результаты статистически значимы (<0.05).

На самом деле p-уровень значимости говорит нам только об одном и больше ни о чем - с какой вероятностью достигнутый или более экстремальный результат может быть повторно получен в новом эксперименте при условии верности нулевой гипотезы или другими словами - видимый результат не случаен. Если p-уровень значимости менее 5%, то такая вероятность высокая, так как если нулевая гипотеза верна, то мы вряд ли бы получили наблюдаемый результат. А значит у нас есть все основания отвергнуть нулевую гипотезу в пользу альтернативной.
Если еще проще, то чем ниже p-уровень статистической значимости, тем больше вероятность получить такой же результат в повторных экспериментах. Это и есть статистический вывод, хотя он не всегда и всем интуитивно понятен. То есть речь только о вероятности (точнее даже о частоте) повторения наблюдаемого результата во множестве гипотетических повторных экспериментах.
Часто из-за чрезмерного упрощения и стереотипов правильная интерпретация p-уровня статистической значимости превращается в "эффективность терапии", "факторы риска" и во все, что хочется, принебрегая конкретными цифрами и логическими рассуждениями в контексте проводимых исследований.

Пример: мы сравнили два вида терапии А и В. Число ответов на лечение при использовании терапии А больше, чем при терапии В, p=0.03. Это означает, что если мы повторим исследование с другими выборками пациентов и тем же дизайном, то мы с большой долей вероятности получим такой же или более различающийся результат между двумя этими методами лечения. Можно ли на основании этого сделать вывод, что лечение А, эффективнее В? Ответить на этот вопрос нельзя, потому что он не корректный. Эффективность лечения - это не p-уровень статистической значимости и его величина, это конретное число (%) ответивших пациентов, а также оценка соотношения риск/польза. А p-уровень значимости лишь помогает нам принять данные оценки как не случайные.
👍4👎1
Сегодня, 14 марта, — Международный день числа Пи.

Число «Пи» представляет собой математическую константу и является отношением длины окружности к ее диаметру. В цифровом выражении «Пи» начинается как 3,141592... и имеет бесконечную математическую продолжительность.
Придумал этот неофициальный праздник физик из Сан-Франциско Ларри Шоу, который подметил, что в американской системе записи дат (месяц/число) день 14 марта — 3/14 — совпадает с первыми разрядами числа «Пи» = 3,14…
В этот день в учебных заведениях полагается читать лекции о загадочном числе «Пи» и «проводить мероприятия, направленные на повышение интереса к математике».
Каждый год 14 марта в 1:59:26 люди, интересующиеся математикой, празднуют «День числа Пи», пекут круглый торт, усаживаются за круглый стол и обсуждают число π, решают задачи и головоломки, связанные с «Пи».
В английском языке слова pie (пирог) и pi (число π) звучат одинаково, и поэтому приготовление и поедание пирогов стало веселой частью праздника.
В числе «Пи» можно найти самые различные последовательности чисел, например, свою дату рождения или номер сотового телефона. Это можно проверить на первых 200 миллионах знаках после запятой здесь.
В сериале «Звездный путь» один из персонажей побеждает злой компьютер, предложив ему вычислить последнюю цифру числа. Тот не выдержал перегрузки и сгорел.
Вниманием это число не обошли и поэты. Неизвестный написал: «Надо только постараться и запомнить все, как есть – три, четырнадцать, пятнадцать, девяносто два и шесть».
3
Про доверительный интервал (ДИ) и не только

Допустим результаты исследования показали, что среди пациентов из нашей выборки 40% ответили на лечение, а 95%ДИ (confidence interval) составил 37-43%. Как это интерпретировать? Какой будет истинный результат лечения, если мы применим данную терапию у новых пациентов. ДИ (погрешность измерения) тем больше, чем меньше размер выборки. Погрешность не означает, что мы знаем, что истинный результат находится где-то между 37 и 43%. На самом деле, мы НИКОГДА не сможем узнать истинный результат на каждой новой выборке, пока не повторим эксперимент снова. Что мы можем сказать, так это то, что если мы проведем аналогичное исследование, например 100 раз, то результат эффективности терапии в 95% экспериментов будет лежать в интервале 37-43%, а в 5% он будет иным.

Частотная статистика опирается на идею эмпирической (не истинной) вероятности - частоте повторений определенного события в большом количестве одинаковых испытаний. В частотной статистике вероятность события приравнивается к частоте получения определенных результатов в других выборках (экспериментах). Другими словами в частотной статистике мы получаем вероятность получения изучаемого нами результата (доказательства гипотезы) в новом эксперименте, если наша гипотеза верна. Если например p=0.01, значит вероятность получить такой же или более экстремальный результат в новом эксперименте равняется 99% при верности проверяемой (альтернативной) гипотезы или 1% - при верности нулевой. Поэтому в этом случае у нас есть основания принять альтернативную гипотезу и не принять нулевую. Но мы не получаем истинную вероятность изучаемого результата. В байесовской статистике изучается вероятность самого изучаемого явления (вероятность самой гипотезы), на основании полученных в эксперименте результатов (новых данных), а не вероятность повторить или улучшить результат в новом эксперименте. В байесовской статистике ДИ называется "интервалом, заслуживающий доверия" (credible interval), вычисляется он байесовскими методами и означает интервал, который с 95% (или другой) вероятностью будет содержать истинное значение. Что важнее и понятнее в решении реальных задач - извечный спор между байесовцами и фриквентистами. При больших размерах выборок результаты байесовоской и частотной статистики становятся очень схожими.

Понятие "истинной вероятности" довольно сложное. Есть несколько трактовок:
С точки зрения частотной интерпретации, истинная вероятность - предел частоты при бесконечном количестве испытаний. На практике она не может быть точно вычислена, так как нелья провести бесконечное число экспериментов, а результат сильно зависит от размеров выборки.
В философском смысле истинная вероятность - свойство объекта или события, которое не зависит от нашего знания. Её также нельзя непосредственно измерить. Всегда существует фундаментальная неопределенность.
В байесовском подходе говорят о байесовской вероятности - степени уверенности или вере в определённый исход после учёта всей доступной информации (новых данных). Это также отчасти субъективная оценка. Байесовская статистика использует апостериорные вероятности, основанные на имеющейся заранее (априорной) информации, которая обновляется до апостериорного значения по результатам эксперимента. Это более близкий подход к изучению истинных вероятностей событий и явлений. Некоторые исследователи даже считают, то, что медицина до сих пор не приняла байесовский анализ в XXI веке, - это самый большой медицинский скандал.
👍3👎2
Про ограниченное среднее время выживания (Restricted Mean Survival Time, RMST) в анализе выживаемости

RMST - площадь под кривой выживаемости за ограниченный промежуток времени. Более конкретно, если S(t) - функция выживаемости (кумулятивная доля выживших) во времени t:
RMST за время t - интеграл S(t) от 0 до t. То есть это математическая площадь под кривой выживаемости S(t) от начала наблюдения до фиксированного момента времени t.

RMST предлагается в качестве новой альтернативной меры в анализе выживаемости, которая может быть полезна, когда невозможно сделать предположение о пропорциональных рисках (опасностях) или когда частота событий низка.

RMST определяется как площадь под кривой выживаемости до определённой временной точки и, как правило, оценивается более надёжно, чем медиана выживания.

Для получения клинически значимого RMST необходимо чётко выбрать временной горизонт для оценки, например, за 1-, 2-, 5-лет.

В случае пересечения кривых выживаемости, что может указывать на нарушение пропорциональности рисков, эффективность вмешательства, например, терапии, можно продемонстрировать, показав разность в RMST между кривыми, несмотря на то, что log-rank тест будет статистически незначим, а HR не применим.

Разница между RMST двух групп - разность между площадями под кривыми выживаемости этих групп за один и тот же период t.
🔥1
Про проблемы таблицы 1

В различных клинически исследованиях часто можно видеть, как базовые характеристики пациентов подвергаются описательной сравнительной статистике, при этом каждая базовая характеристика в таблице №1 (чаще всего) имеет соответствующее p-значение. Например, группы пациентов сравниваются по стадиям, полу, возрасту и т.д. Мы хотим узнать, повлияли ли различия в исходных характеристиках пациентов на конечный наблюдаемый результат, например, на эффективность терапии. Чтобы ответить на этот вопрос нам необходимо точно знать, каковы были различия в исходных характеристиках. Поскольку у нас есть исходные характеристики для всех участников выборки исследования, нам нужна лишь простая описательная статистика (на- или во сколько раз они отличаются и могут ли полученные различия иметь клинический эффект). Вопрос не в том, являются ли различия статистически значимыми. Вопрос заключается в том, достаточно ли велики абсолютные различия между группами по исходным характеристикам, чтобы повлиять на результат. На него можно ответить, изучив описательную статистику и используя клиническое суждение, а не p-уровень значимости, который лишь помогает предположить, что наблюдаемая разница была обусловлена исключительно случайностью, и просто дает нам оценку вероятности такого развития событий при множестве возможных повторений исследования. Нет смысла использовать различные статистические тесты для сравнения пациентов по базовым характеристикам, достаточно представить и описать их как есть.

Не нужно проверять статистическую значимость различий между группами по базовым характеристикам (пол, возраст и т.п.) в следующих случаях:
 Если характеристики (например, пол) не являются результатом вмешательства (например, лечения). Различия по ним могут быть случайными.
 Даже если различия статистически значимы, они не несут информации о причинно-следственных связях между базовыми характеристиками и изучаемым исходом.
 Интерпретация статистически значимых различий между признаками может привести к ложноположительным выводам об их влиянии на результаты изучаемого исхода.

Можно проверять значимость различий по базовым характеристикам пациентов в следующих случаях:
 Если пациенты подвергались рандомизации, тогда различия могут указывать на проблемы с ее проведением - оценка качества рандомизации. Обоснованность такого подхода является спорным и называется "заблуждение" таблицы 1 (the table 1 fallacy).
 Существует предварительная гипотеза о влиянии конкретного признака на результат.

Краткий вывод: не стоит заморачиваться поиском статистически значимых различий базовых характеристик в группах (через тесты Хи2, тест Манна-Уитни и др.) только ради формального сравнения, если это не является целью исследования.
Про категоризацию количественных переменных в прогностических моделях

Категоризация непрерывных предикторов в прогностических моделях приводит к созданию моделей с более слабыми прогностическими характеристиками.

Дихотомия по медиане предиктора является неадекватным подходом, так как навязывает нереалистичную и неверную взаимосвязь предиктора и исхода.

Категоризация приводит к значительным затратам на создание прогностических моделей, которые контрпродуктивны.

Рекомендуется оставлять предикторы непрерывными во время моделирования и упростить конечную модель с помощью балльной системы.

Моделирование нелинейной зависимости с помощью дробных полиномов или ограниченных кубических сплайнов приводит к незначительным различиям в производительности модели (вполне допустимо).

Меньшие размеры выборки приводят к большей вариабельности результативности модели (нестабильности).

Необходимо следовать методологии построения прогностических моделей, которая не допускает категоризации количественных переменных.
👍1🔥1