статИИстик
183 subscribers
75 photos
3 videos
162 links
О медицинской статистике и не только
Личные сообщения @glivec
Download Telegram
🗣️ В сервисе статИИстик при выполнении логистической регрессии реализовано построение калибровочной кривой через кросс-валидацию с расчетом ее количественных характеристик. Оценка калибровки модели является методологически более значимой метрикой по сравнению с ROC-анализом, поскольку позволяет непосредственно судить о соответствии предсказанных вероятностей наблюдаемым исходам.
👍3🔥1
🗣️ В приложение статИИстик добавлен раздел «Справочные материалы», включающий более 200 постов, посвященных вопросам статистики и анализа данных, ранее опубликованных в данной группе и не только. Раздел оснащен удобной системой поиска через текстовую строку, разделы и теги.
👍2🔥1
🗣️ Все графики в приложении статИИстик теперь сохраняются в SVG формате, а это значит вы можете увеличивать их до любых размеров без потери качества в браузере или прямо в Word. Кроме того вы можете изменить любые цвета прямо в коде или в сторонних приложениях (пока для продвинутых пользователей, кто умеет работать с SVG графикой).
🔥3👍2
🗣️ В приложение статИИстик добавлен регрессионный анализ Кокса с построением dose–response кривых, позволяющих оценить характер взаимосвязи между значением предиктора и величиной отношения рисков (HR), включая линейные и нелинейные зависимости. Данный тип визуализации имеет принципиальное значение, поскольку связь между уровнем предиктора и риском наступления события нередко носит нелинейный характер. Так, при сепсисе как гипотермия, так и гипертермия у пациентов ассоциируются с повышенным риском летального исхода. Кроме того, использование таких графиков позволяет наглядно идентифицировать потенциальное пороговое значение предиктора в случаях, когда принимается решение о его определении и последующем применении в практике.
👍3🔥1
Про точность диагностических тестов и истинную вероятность заболевания

Как диагностический тест с заявленной точностью 99% при его положительном результате может соответствовать лишь приблизительно 9% вероятности наличия заболевания? Этот парадокс иллюстрирует принципиальное различие между специфичностью теста и его положительной прогностической ценностью. Чувствительность и специфичность являются внутренними, неизменными характеристиками диагностического метода и не учитывают распространенность заболевания в популяции. Напротив, положительная прогностическая ценность (PPV), отражающая вероятность того, что положительный результат действительно указывает на наличие заболевания, напрямую зависит от распространенности патологии и потому имеет для клинической практики большее значение, чем показатели чувствительности и специфичности. Вместе с тем ее оценка представляет большую сложность, поскольку требует клинического представления о вероятности заболевания именно у конкретного пациента. При низкой распространенности заболевания даже высококачественный тест будет давать преобладание ложноположительных результатов. По этой причине скрининг пациентов с низким риском может приводить к значительному числу ложноположительных находок и, как следствие, к потенциальному вреду. Различие между специфичностью и положительной прогностической ценностью является одним из ключевых концептов современной медицины. Для его лучшего понимания целесообразно использовать расчетные модели, варьируя показатели распространенности заболевания и наблюдая, насколько существенно меняются диагностические характеристики теста в зависимости от изучаемой популяции.

Вы можете самостоятельно поэкспериментировать с различными метриками диагностического теста, указывая разную распространенность заболевания, в калькуляторе по ссылке: https://mdcopilot.ru/api/statistic/prevalence.html
👍1🔥1
Кофе улучшает когнитивные функции и снижает риск развития деменции. Более 130 000 человек наблюдались в течение 37 лет.
Положительный эффект наблюдается только при употреблении кофе или чая с кофеином, заметен при употреблении примерно 2 чашек в день и не нарастает при употреблении более 3 чашек в день. В статье, посвященной исследованию, также имеется визуализация в виде dose-response кривых, которые, напомню, автоматически строятся в приложении статИИстик (в разделе - регрессия Кокса) и помогают определить характер тренда.
🔥2👍1
Фрэнк Харрелл против дихотомизации данных

В очередной раз затронута проблема дихотомизации данных в новой публикации при участии широко известного в статистических кругах профессора Ф. Харрелла. По результатам анализа 21 435 уникальных рандомизированных контролируемых исследований из базы данных Cochrane Database, 7224 исследования (34%) использовали непрерывные числовые исходы, тогда как 14 211 (66%) — бинарные. Установлено, что РКИ с бинарными исходами характеризуются в среднем большими размерами выборки, однако при этом демонстрируют большие стандартные ошибки и меньшую долю статистически значимых результатов.

Авторы делают вывод, что увеличение объема выборки частично компенсирует низкую информационную емкость бинарных исходов, но эта компенсация недостаточна. Во многих случаях бинарные показатели являются результатом дихотомизации непрерывных переменных, что приводит к потере информации. При этом в среднем теряется около 40% информации — сохраняется лишь 60% статистической мощности. Увеличение выборки частично компенсирует потери, но недостаточно, что ведет к неоправданному вовлечению дополнительных участников и росту затрат. Использование большего числа участников без необходимости рассматривается как экономически неэффективное и неэтичное.

Авторы предлагают рассчитывать выборку и проводить анализ для непрерывных данных, а клиническую интерпретацию представлять в дихотомическом виде. Такой подход позволяет существенно сократить размер выборки без потери точности и избежать ненужной утраты информации. Для этого предложен метод преобразования расчета объема выборки для сравнения двух пропорций в эквивалентный расчет для сравнения средних значений непрерывных исходов, что позволяет количественно оценить потенциальное сокращение выборки при отказе от дихотомизации. Интерактивный калькулятор доступен по ссылке: https://vanzwet.shinyapps.io/info_loss
А теперь пример:

Представим РКИ нового антидиабетического препарата против плацебо, 12 недель лечения. Исходная переменная — уровень глюкозы натощак (ммоль/л). Клинически значимый порог для ответа на лечение заранее задан, например «достиг целевого уровня <7,0 ммоль/л к 12-й неделе».

Как часто делают неправильно: берут каждого пациента и превращают уровень глюкозы в крови в 0/1: если <7,0 — «ответил - 1», если ≥7,0 — «не ответил - 0». Дальше сравнивают доли «ответивших». Проблема в том, что пациент с 6,9 и пациент с 4,8 становятся одинаковыми «ответчиками», а пациент с 7,1 и пациент с 12,0 — одинаковыми «неответчиками». Большая часть информации о величине эффекта выбрасывается.

Правильнее использовать подход - «моделировать непрерывно, интерпретировать дихотомически». Пусть в конце исследования получились такие результаты по глюкозе натощак: в группе плацебо среднее 7,6 (SD 1,4) ммоль/л, в группе нового препарата среднее 6,8 (SD 1,4) ммоль/л. Мы сначала проводим основной анализ: сравниваем средние или строим линейную модель с поправкой на исходный уровень глюкозы. Получаем оценку эффекта: препарат снижает глюкозу в среднем на 0,8 ммоль/л по сравнению с плацебо (с доверительным интервалом и p-уровнеме). Это использует всю информацию, потому что учитывает каждое значение.
Дальше нужно дать клиницисту понятный вывод «какая доля достигла цели <7,0». Для этого не обязательно перекодировать каждого пациента в 0/1 до анализа. Можно вывести долю из непрерывной модели, то есть из распределения конечных значений. Если для простоты предположить, что конечная глюкоза в каждой группе примерно нормально распределена с указанными средним и SD, то доля пациентов, достигших <7,0, равна вероятности P(глюкоза < 7,0). Это считается через стандартизацию: Z = (порог − среднее) / SD, а затем берется вероятность слева от Z согласно функции нормального распределения Φ(Z).

Для препарата: Z = (7,0 − 6,8) / 1,4 = 0,2 / 1,4 ≈ 0,14. Φ(0,14) ≈ 0,56. Значит, около 56% пациентов на препарате ожидаемо будут иметь глюкозу <7,0.
Для плацебо: Z = (7,0 − 7,6) / 1,4 = −0,6 / 1,4 ≈ −0,43. Φ(−0,43) ≈ 0,33. Значит, около 33% на плацебо достигнут <7,0.

Вывод для интерпретации можно сделать как «вероятность достижения цели»: 56% против 33%, абсолютная разница 23 процентных пункта; при желании можно вывести относительный риск или отношение шансов. Согласитесь такой вывод намного более интересный, качественный, использующий всю мощность ваших данных!

ВАЖНО! Нормальность распределения не является обязательным условием, чтобы отказаться от дихотомизации. Есть несколько вариантов, если распределение не нормальное: логарифмирование переменных, Box–Cox-преобразование, в конце концов - тест Манна–Уитни. Кстати при тесте Манна-Уитни по сравнению с t-тестом вы теряете примерно 5% мощности данных, а при дихотомизации - 40%. В крайнем случае есть еще логистическая регрессия и др.
Вот это поворот! Похоже ИИ менее склонен к p-хакингу, чем люди

Проведен эксперимент по оценке склонности ИИ-агентов к p-хакингу при анализе реальных датасетов с ранее опубликованными нулевыми (незначимыми) результатами. Современным языковым моделям предлагалось провести статистический анализ и получить статистически значимые эффекты. Когда исследователи прямо просили "сделать анализ так, чтобы получить статистически значимый результат", языковые модели отказывались выполнять задание. В ответах ИИ указывалось, что подобные действия квалифицируются как научная фальсификация и манипуляция анализом. Модели прямо заявляли о недопустимости предвзятого выбора аналитических решений с целью искусственного достижения p<0,05.

Однако при более нейтральной формулировке, например, просьбе "оценить верхнюю границу возможного эффекта" или "учесть неопределенность максимально полно" — поведение менялось. В этом случае ИИ начинал систематически перебирать множество аналитических вариантов: разные наборы ковариат, подвыборки и др. Фактически проводился массовый поиск решений, а затем выбирался вариант с наибольшей оценкой эффекта.

Авторы делают вывод, что ИИ демонстрирует относительную устойчивость к прямым попыткам склонить его к p-хакингу. Тем не менее это можно обойти через переформулировование задачи, что приводит к систематическому завышению эффектов. Отмечено, что степень ущерба возрастает по мере увеличения аналитической гибкости исследовательского дизайна.
🗣️ В любом статистическом анализе ключевое значение имеет не столько сам этап анализа, сколько качество исходных данных и их предварительная подготовка. Процесс преданалитической обработки может занимать до 80% общего времени исследования, что определяет его критическую роль в обеспечении достоверности и воспроизводимости результатов. С целью упрощения данного этапа в сервис статИИстик добавлено краткое руководство, регламентирующее требования к структуре и форматированию данных перед их загрузкой и последующим проведением анализа.
👍2
🗣️ В приложение статИИстик добавлены: мета-анализ и сетевой мета-анализ. Чтобы все получилось, обратите внимание, как следует готовить данные. Подсказки есть в разделе "Подготовка данных".
🔥1
Мы тонем в предсказательных медицинских моделях. И большинство из них — иллюзия!

Каждый год публикуются сотни работ, предлагающих новые инструменты прогнозирования для самых разных заболеваний. Они могут выглядеть современно, использовать машинное обучение, сложные алгоритмы и красивые графики. Но реальность гораздо жестче - более 90% этих моделей непригодны для клинической практики. Главная причина — малый размер выборки.
Правильно рассчитанный размер выборки это не чья-то прихоть и не академическая бюрократия. Это математически доказанный факт. Если размер выборки недостаточен, модель становится нестабильной. Если вас учат иначе, если вам говорят, что существуют чудо-программы, которые посчитают корректную прогностическую модель на любой маленькой выборке, и вы сможете просто вставить результат в статью или диссертацию, — не верьте. И тем более не платите за это деньги. А знает почему неверные знания распространяются быстрее, чем правильные? Потому что они проще в использовании, а люди крайне ленивы. Многие записываются на статические курсы даже не понимая, что платят деньги за иллюзии.

При малых выборках возникает эпистемическая неопределенность. Это означает, что одна и та же модель, построенная на разных подвыборках одних и тех же данных, может давать кардинально разные прогнозы для одного и того же пациента. Сегодня риск 20%, завтра — 90%. Прогноз буквально "прыгает". Такие модели просто бесполезны. Они "врут" о вероятностях риска, создавая иллюзию точности. Валидация на малых выборках лишь усиливает эту иллюзию, демонстрируя красивую AUC и якобы хорошую калибровку там, где на самом деле нет стабильности.

Существует распространенный миф, что алгоритмы машинного обучения компенсируют нехватку данных. Это неправда. Факт в том, что сложные алгоритмы требуют в 10 раз больше событий на переменную, чем простая регрессия, чтобы оставаться стабильными. Методы штрафования, такие как LASSO, тоже не являются панацеей от переобучения на малых выборках. Они могут уменьшить вариабельность коэффициентов, но не устраняют фундаментальную проблему нехватки информации.

Важно понимать принципиальное отличие прогнозирования от классических клинических исследований. В прогнозировании нет нулевой гипотезы. Мы не проверяем, работает ли лекарство. Мы строим кривую индивидуального риска. Наша цель — минимизировать неопределенность вокруг прогноза, сузить доверительные интервалы и обеспечить стабильность коэффициентов. Поэтому расчет размера выборки для прогностических моделей принципиально отличается от расчетов для рандомизированных исследований.

Пора забыть эмпирические правила вроде "10–15 событий на предиктор". Они устарели и вводят в заблуждение. Для корректного расчета нужны другие параметры: распространенность прогнозируемого события, количество оцениваемых коэффициентов модели и предполагаемая доля объясненной вариабельности — R² или ожидаемая AUC. Причем под числом параметров понимается именно количество оцениваемых коэффициентов, а не просто число переменных. Один количественный предиктор — один коэффициент. Бинарная переменная — тоже один. Категориальная с k уровнями дает k−1 коэффициентов. Сплайны и полиномы добавляют столько коэффициентов, сколько базисных функций или степеней используется. Каждый член взаимодействия — отдельный коэффициент. Именно это определяет информационную нагрузку модели.

Практически корректный расчет сегодня возможен только с использованием специализированных инструментов, таких как пакеты pmsampsize и pmvalsampsize в R или Python. И не имеет значения, строите ли вы логистическую регрессию или модель на основе ИИ, принципы остаются теми же.

Написано по мотивам лекции Ричарда Райли.
👍2
🗣️ В приложении статИИстик реализован бесплатный калькулятор расчета размера выборки для создания прогностической модели с использованием пакета pmsampsize по методике Ричарда Райли. Потому что качественная прогностическая медицина начинается не с алгоритма, а с достаточного объема данных и строгой методологии.
👍4
🗣️ На днях я впервые выполнил заказной статистический анализ, полностью используя только приложение статИИстик. Методологически задача была не сложная - анализ общей и беспрогрессивной выживаемости, в том числе в зависимости от достижения ответа на терапию по двум разным заболеваниям. Итоговый отчет составил 15 страниц word документа, включая графики выживаемости, таблицы вероятности дожития, интерпретацию результатов, заключение и объяснение методологии примененных методов. Отчеты были сформированы почти автоматически с помощью ИИ и проверены мною, после чего я внес лишь небольшие правки, связанные с контекстом данных. :
Сочетание корректно выполненного статистического анализа и настроенного ИИ в приложении статИИстик - практически работающий инструмент, позволяющий быстро, эффективно и профессионально решать большое количество самых распространенных статических задач.

Пара советов:
- при передаче данных ИИ старайтесь называть переменные так, чтобы они были "ему" понятны. Например, переменную время в анализе выживамости, лучше назвать не Time, а Months или Years, в зависимости от того, в чем она измерена
- при оформлении результатов исследования в своей научной работе, полученных в приложении статИИстик, пишите, что для проведения статистического анализа был использован язык программирования Python, в частности версия 3.10 (или 3.12).
🔥7
Как искать конфаундеры с помощью GLM. Часть 1.

Недавно передо мной стояла задача сравнить две группы пациентов по числу проведенных аферезов гемопоэтических стволовых клеток (ГСК) и по количеству заготовленных ГСК. На первом этапе все достаточно просто: можно использовать стандартные методы сравнения количественных показателей между двумя группами — например, тест Уэлча, Брауна–Муда или Манна–Уитни. Это позволяет оценить, есть ли различия между группами в целом. Это есть в приложении статИИстик.

Однако далее задача усложнилась. Нужно было понять, объясняются ли найденные различия только основной группирующей переменной или на результат также влияют другие факторы. Такие факторы называются конфаундерами — они могут искажать оценку эффекта, если их не учитывать в модели. В обсервационных исследованиях одной из главных методологических проблем является конфаундинг — ситуация, при которой связь между экспозицией и исходом искажается третьей переменной. Конфаундер связан как с воздействием, так и с исходом, и при его игнорировании оценка эффекта может быть смещена. Подробнее можно почитать здесь.

Для решения этой задачи применяются обобщенные линейные модели (GLM), которые позволяют анализировать влияние нескольких факторов одновременно. Подробнее здесь. Сложность заключалась в типе зависимых переменных. В одном случае это было число процедур (дискретные значения от 1 до 7), в другом — количество заготовленных клеток (непрерывная положительная величина). При этом все независимые переменные, включая основную группирующую и возможные конфаундеры, были бинарными.

Классическая линейная регрессия здесь не подходит, потому что она предполагает нормальное распределение зависимой переменной. Логистическая регрессия тоже не подходит, так как используется для бинарных исходов. Поэтому для анализа числа аферезов была выбрана регрессия Пуассона, которая предназначена для моделирования счетных данных. А для анализа количества заготовленных клеток использовалась гамма-регрессия, поскольку эта модель лучше подходит для непрерывных положительных показателей с асимметричным распределением.

В моделях обобщенной линейной регрессии, включая линейную, логистическую и пуассоновскую регрессию, один из наиболее распространенных практических подходов к выявлению конфаундеров основан на оценке изменения коэффициента регрессии при добавлении потенциальной переменной в модель.

Сначала строится «грубая» модель без конфаундеров. Затем добавляется предполагаемый конфаундер, и сравнивается коэффициент регрессии у основного переменной (группирующей). То есть мы усложняем модель и смотрим как ведут себя коэффциенты регрессии. Если после добавления новой переменной коэффициент заметно изменяется, это трактуется как наличие конфаундинга. Исторически в литературе закрепилось эмпирическое правило: если изменение превышает 10%, переменную считают конфаундером и оставляют в модели. На этом задачу можно считать выполненной. Кто не хочет на этом останавливаться, читайте часть 2.
🔥1
Как искать конфаундеры с помощью GLM. Часть 2.

Правило 10% является условным и не имеет универсального статистического обоснования. Величина возможного изменения коэффициента регрессии зависит от размера выборки, силы эффекта, дисперсии данных и структуры корреляций между переменными. В больших выборках даже небольшие изменения могут быть статистически значимыми, тогда как в малых выборках 10%может быть слишком строгим или, наоборот, слишком мягким критерием. Таким образом, фиксированный порог не учитывает характеристики конкретных данных и может приводить к неправильным решениям о включении или исключении переменных.

Более обоснованный подход заключается в том, чтобы вычислить индивидуальный порог для конкретной модели. Для этого в модель многократно добавляют случайную, не связанную с исходом переменную и оценивают, насколько изменяется коэффициент экспозиции исключительно из-за случайного шума. Методика простая, описана здесь. Мы берем исходную модель и многократно добавляем в нее искусственно созданную случайную переменную — просто набор случайных чисел той же длины, что и выборка. Эта переменная никак не связана ни с исходом, ни с основной переменной интереса и служит моделью "чистого шума". Каждый раз после ее добавления пересчитывается модель и фиксируется, насколько изменился коэффициент при основной переменной. Такую процедуру повторяют, например, 10 000 раз. В результате получается распределение случайных изменений коэффициента, и по его верхнему перцентилю определяется порог, выше которого изменение уже нельзя объяснить простым статистическим шумом.
Затем берут верхний перцентиль распределения этих изменений, например 95-й, и используют его как адаптивный порог. Такой метод позволяет оценить, какое изменение может возникнуть случайно, и отделить его от систематического влияния реального конфаундера. В отличие от фиксированного правила 10%, этот подход учитывает параметры модели и особенности выборки, обеспечивая статистически более корректную идентификацию конфаундирующих факторов.
При этом важно понимать, что любой метод, основанный на данных, включая критерий изменения коэффициента, не заменяет каузального мышления. Решение о включении переменной в модель должно учитывать предметные знания и причинную структуру, а не только числовой порог изменения коэффициента.
🔥1
🗣️ В приложении статИИстик добавлен новый анализ - линейная регрессия. Это статистический метод прогнозирования значения постоянной зависимой количественной переменной на основе одной или нескольких независимых переменных. Он оценивает взаимосвязь с помощью линейного уравнения. Линейное уравнение - прямая линия, которая моделирует связь между зависимой и независимой переменными, показывая, как изменения входящих характеристик влияют на целевое значение.
Подробне про допущения к методу можно почитать здесь. Еще больше информации в можете найти в "справочных материалах" на сайте.
👍2
🗣️ В приложении статИИстик добавлен расчет стабильности прогностической модели при построении бинарной логистической регрессии. Стабильность прогностической модели - одна из важнейших характеристик, которую почти никогда не проверяют. Нестабильные прогностические модели не будут работать в реальных условиях и не должны рекомендоваться для практического использования. Главная причина нестабильности модели - маленькая обучающая выборка.

Подробнее вы можете прочитать в справочных материалах в приложении "Про нестабильность прогностических моделей или причем тут "мультиверс" .
🗣️ В анализ бинарной логистической регрессии в приложении статИИстик добавлен расчет bias-скорректированной калибровки по методу профессора Фрэнка Харрелла

Подробнее:
В клинических прогностических моделях мы обычно оцениваем два ключевых свойства: дискриминацию и калибровку. Если дискриминация показывает, насколько хорошо модель разделяет пациентов с событием и без события (обычно через AUC), то калибровка отвечает на более клинически важный вопрос: насколько предсказанная вероятность соответствует реальному риску. Иными словами, если модель прогнозирует риск события 30%, то действительно ли примерно у 30% пациентов происходит событие?

Однако при оценке модели на той же выборке, на которой она была построена, возникает фундаментальная проблема — оптимистическое смещение (optimism). Модель частично "подстраивается" под случайные особенности обучающих данных. В результате её калибровка на обучающей выборке выглядит лучше, чем будет на новых пациентах. Такая калибровка называется apparent calibration (наблюдаемая калибровка). Она почти всегда несколько переоценивает качество модели.

Для решения этой проблемы Фрэнк Харрелл предложил метод bias-corrected calibration — калибровки с поправкой на смещение. Этот подход широко используется в современной медицинской статистике и лежит в основе рекомендаций TRIPOD и методологии построения регрессионных моделей. Его цель — оценить, как будет выглядеть калибровка модели на новых данных, не имея независимой внешней выборки.

Метод основан на бутстрэп процедуре. Из исходной выборки многократно формируются бутстрэп-подвыборки (обычно сотни повторений). На каждой из них модель строится заново. Затем оценивается её калибровка в двух ситуациях: на той же бутстрэп-выборке (где она обучалась) и на исходной выборке. Разница между этими двумя кривыми отражает оптимизм или ту часть качества модели, которая обусловлена переобучением. После усреднения этого оптимизма по всем бутстрэп-итерациям он вычитается из исходной (apparent) калибровки. В результате получается bias-corrected калибровочная кривая, более реалистичная оценка поведения модели на новых данных.

На графике обычно показывают несколько линий. Первая — идеальная калибровка (диагональ), где предсказанный риск полностью совпадает с наблюдаемым. Вторая — apparent calibration, построенная на обучающей выборке. Третья — bias-corrected calibration, скорректированная с помощью bootstrap-оценки оптимизма. Если эти две кривые сильно расходятся, это указывает на переобучение модели. Если же они почти совпадают, модель демонстрирует хорошую внутреннюю стабильность.

Важно понимать, что bias-corrected калибровка не заменяет внешнюю валидацию. Она лишь позволяет более корректно оценить модель на этапе разработки. Тем не менее этот подход считается одним из лучших методов внутренней проверки прогностических моделей, особенно когда доступна только одна небольшая выборка пациентов.

Таким образом, bias-corrected calibration по методу Харрелла — способ оценить реальную клиническую калибровку модели с поправкой на переобучение. Он позволяет увидеть, насколько оптимистична исходная калибровка и насколько вероятно, что модель сохранит свою точность при применении к новым пациентам. Именно поэтому этот метод сегодня является стандартом при разработке медицинских прогностических моделей.
👍2