🗣️ На сайте mdcopilot.ru запущено приложение статИИстик - статистический анализ прямо в браузере бесплатно с поддержкой ИИ. Количество методов статистического анализа планируется расширять.
Любые ваши пожелания пишите @glivec
Любые ваши пожелания пишите @glivec
🔥5
🗣️ В сервисе статИИстик при выполнении логистической регрессии реализовано построение калибровочной кривой через кросс-валидацию с расчетом ее количественных характеристик. Оценка калибровки модели является методологически более значимой метрикой по сравнению с ROC-анализом, поскольку позволяет непосредственно судить о соответствии предсказанных вероятностей наблюдаемым исходам.
👍3🔥1
🗣️ В приложение статИИстик добавлен раздел «Справочные материалы», включающий более 200 постов, посвященных вопросам статистики и анализа данных, ранее опубликованных в данной группе и не только. Раздел оснащен удобной системой поиска через текстовую строку, разделы и теги.
👍2🔥1
🗣️ Все графики в приложении статИИстик теперь сохраняются в SVG формате, а это значит вы можете увеличивать их до любых размеров без потери качества в браузере или прямо в Word. Кроме того вы можете изменить любые цвета прямо в коде или в сторонних приложениях (пока для продвинутых пользователей, кто умеет работать с SVG графикой).
🔥3👍2
🗣️ В приложение статИИстик добавлен регрессионный анализ Кокса с построением dose–response кривых, позволяющих оценить характер взаимосвязи между значением предиктора и величиной отношения рисков (HR), включая линейные и нелинейные зависимости. Данный тип визуализации имеет принципиальное значение, поскольку связь между уровнем предиктора и риском наступления события нередко носит нелинейный характер. Так, при сепсисе как гипотермия, так и гипертермия у пациентов ассоциируются с повышенным риском летального исхода. Кроме того, использование таких графиков позволяет наглядно идентифицировать потенциальное пороговое значение предиктора в случаях, когда принимается решение о его определении и последующем применении в практике.
👍3🔥1
Про точность диагностических тестов и истинную вероятность заболевания
Как диагностический тест с заявленной точностью 99% при его положительном результате может соответствовать лишь приблизительно 9% вероятности наличия заболевания? Этот парадокс иллюстрирует принципиальное различие между специфичностью теста и его положительной прогностической ценностью. Чувствительность и специфичность являются внутренними, неизменными характеристиками диагностического метода и не учитывают распространенность заболевания в популяции. Напротив, положительная прогностическая ценность (PPV), отражающая вероятность того, что положительный результат действительно указывает на наличие заболевания, напрямую зависит от распространенности патологии и потому имеет для клинической практики большее значение, чем показатели чувствительности и специфичности. Вместе с тем ее оценка представляет большую сложность, поскольку требует клинического представления о вероятности заболевания именно у конкретного пациента. При низкой распространенности заболевания даже высококачественный тест будет давать преобладание ложноположительных результатов. По этой причине скрининг пациентов с низким риском может приводить к значительному числу ложноположительных находок и, как следствие, к потенциальному вреду. Различие между специфичностью и положительной прогностической ценностью является одним из ключевых концептов современной медицины. Для его лучшего понимания целесообразно использовать расчетные модели, варьируя показатели распространенности заболевания и наблюдая, насколько существенно меняются диагностические характеристики теста в зависимости от изучаемой популяции.
Вы можете самостоятельно поэкспериментировать с различными метриками диагностического теста, указывая разную распространенность заболевания, в калькуляторе по ссылке: https://mdcopilot.ru/api/statistic/prevalence.html
Как диагностический тест с заявленной точностью 99% при его положительном результате может соответствовать лишь приблизительно 9% вероятности наличия заболевания? Этот парадокс иллюстрирует принципиальное различие между специфичностью теста и его положительной прогностической ценностью. Чувствительность и специфичность являются внутренними, неизменными характеристиками диагностического метода и не учитывают распространенность заболевания в популяции. Напротив, положительная прогностическая ценность (PPV), отражающая вероятность того, что положительный результат действительно указывает на наличие заболевания, напрямую зависит от распространенности патологии и потому имеет для клинической практики большее значение, чем показатели чувствительности и специфичности. Вместе с тем ее оценка представляет большую сложность, поскольку требует клинического представления о вероятности заболевания именно у конкретного пациента. При низкой распространенности заболевания даже высококачественный тест будет давать преобладание ложноположительных результатов. По этой причине скрининг пациентов с низким риском может приводить к значительному числу ложноположительных находок и, как следствие, к потенциальному вреду. Различие между специфичностью и положительной прогностической ценностью является одним из ключевых концептов современной медицины. Для его лучшего понимания целесообразно использовать расчетные модели, варьируя показатели распространенности заболевания и наблюдая, насколько существенно меняются диагностические характеристики теста в зависимости от изучаемой популяции.
Вы можете самостоятельно поэкспериментировать с различными метриками диагностического теста, указывая разную распространенность заболевания, в калькуляторе по ссылке: https://mdcopilot.ru/api/statistic/prevalence.html
👍1🔥1
☕ Кофе улучшает когнитивные функции и снижает риск развития деменции. Более 130 000 человек наблюдались в течение 37 лет.
Положительный эффект наблюдается только при употреблении кофе или чая с кофеином, заметен при употреблении примерно 2 чашек в день и не нарастает при употреблении более 3 чашек в день. В статье, посвященной исследованию, также имеется визуализация в виде dose-response кривых, которые, напомню, автоматически строятся в приложении статИИстик (в разделе - регрессия Кокса) и помогают определить характер тренда.
Положительный эффект наблюдается только при употреблении кофе или чая с кофеином, заметен при употреблении примерно 2 чашек в день и не нарастает при употреблении более 3 чашек в день. В статье, посвященной исследованию, также имеется визуализация в виде dose-response кривых, которые, напомню, автоматически строятся в приложении статИИстик (в разделе - регрессия Кокса) и помогают определить характер тренда.
🔥2👍1
Фрэнк Харрелл против дихотомизации данных
В очередной раз затронута проблема дихотомизации данных в новой публикации при участии широко известного в статистических кругах профессора Ф. Харрелла. По результатам анализа 21 435 уникальных рандомизированных контролируемых исследований из базы данных Cochrane Database, 7224 исследования (34%) использовали непрерывные числовые исходы, тогда как 14 211 (66%) — бинарные. Установлено, что РКИ с бинарными исходами характеризуются в среднем большими размерами выборки, однако при этом демонстрируют большие стандартные ошибки и меньшую долю статистически значимых результатов.
Авторы делают вывод, что увеличение объема выборки частично компенсирует низкую информационную емкость бинарных исходов, но эта компенсация недостаточна. Во многих случаях бинарные показатели являются результатом дихотомизации непрерывных переменных, что приводит к потере информации. При этом в среднем теряется около 40% информации — сохраняется лишь 60% статистической мощности. Увеличение выборки частично компенсирует потери, но недостаточно, что ведет к неоправданному вовлечению дополнительных участников и росту затрат. Использование большего числа участников без необходимости рассматривается как экономически неэффективное и неэтичное.
Авторы предлагают рассчитывать выборку и проводить анализ для непрерывных данных, а клиническую интерпретацию представлять в дихотомическом виде. Такой подход позволяет существенно сократить размер выборки без потери точности и избежать ненужной утраты информации. Для этого предложен метод преобразования расчета объема выборки для сравнения двух пропорций в эквивалентный расчет для сравнения средних значений непрерывных исходов, что позволяет количественно оценить потенциальное сокращение выборки при отказе от дихотомизации. Интерактивный калькулятор доступен по ссылке: https://vanzwet.shinyapps.io/info_loss
В очередной раз затронута проблема дихотомизации данных в новой публикации при участии широко известного в статистических кругах профессора Ф. Харрелла. По результатам анализа 21 435 уникальных рандомизированных контролируемых исследований из базы данных Cochrane Database, 7224 исследования (34%) использовали непрерывные числовые исходы, тогда как 14 211 (66%) — бинарные. Установлено, что РКИ с бинарными исходами характеризуются в среднем большими размерами выборки, однако при этом демонстрируют большие стандартные ошибки и меньшую долю статистически значимых результатов.
Авторы делают вывод, что увеличение объема выборки частично компенсирует низкую информационную емкость бинарных исходов, но эта компенсация недостаточна. Во многих случаях бинарные показатели являются результатом дихотомизации непрерывных переменных, что приводит к потере информации. При этом в среднем теряется около 40% информации — сохраняется лишь 60% статистической мощности. Увеличение выборки частично компенсирует потери, но недостаточно, что ведет к неоправданному вовлечению дополнительных участников и росту затрат. Использование большего числа участников без необходимости рассматривается как экономически неэффективное и неэтичное.
Авторы предлагают рассчитывать выборку и проводить анализ для непрерывных данных, а клиническую интерпретацию представлять в дихотомическом виде. Такой подход позволяет существенно сократить размер выборки без потери точности и избежать ненужной утраты информации. Для этого предложен метод преобразования расчета объема выборки для сравнения двух пропорций в эквивалентный расчет для сравнения средних значений непрерывных исходов, что позволяет количественно оценить потенциальное сокращение выборки при отказе от дихотомизации. Интерактивный калькулятор доступен по ссылке: https://vanzwet.shinyapps.io/info_loss
PubMed Central (PMC)
An Empirical Assessment of the Cost of Dichotomization of the Outcome of Clinical Trials
We have studied 21 435 unique randomized controlled trials (RCTs) from the Cochrane Database of Systematic Reviews (CDSR). Of these trials, 7224 (34%) have a continuous (numerical) outcome and 14 211 (66%) have a binary outcome. We find that trials ...
А теперь пример:
Представим РКИ нового антидиабетического препарата против плацебо, 12 недель лечения. Исходная переменная — уровень глюкозы натощак (ммоль/л). Клинически значимый порог для ответа на лечение заранее задан, например «достиг целевого уровня <7,0 ммоль/л к 12-й неделе».
Как часто делают неправильно: берут каждого пациента и превращают уровень глюкозы в крови в 0/1: если <7,0 — «ответил - 1», если ≥7,0 — «не ответил - 0». Дальше сравнивают доли «ответивших». Проблема в том, что пациент с 6,9 и пациент с 4,8 становятся одинаковыми «ответчиками», а пациент с 7,1 и пациент с 12,0 — одинаковыми «неответчиками». Большая часть информации о величине эффекта выбрасывается.
Правильнее использовать подход - «моделировать непрерывно, интерпретировать дихотомически». Пусть в конце исследования получились такие результаты по глюкозе натощак: в группе плацебо среднее 7,6 (SD 1,4) ммоль/л, в группе нового препарата среднее 6,8 (SD 1,4) ммоль/л. Мы сначала проводим основной анализ: сравниваем средние или строим линейную модель с поправкой на исходный уровень глюкозы. Получаем оценку эффекта: препарат снижает глюкозу в среднем на 0,8 ммоль/л по сравнению с плацебо (с доверительным интервалом и p-уровнеме). Это использует всю информацию, потому что учитывает каждое значение.
Дальше нужно дать клиницисту понятный вывод «какая доля достигла цели <7,0». Для этого не обязательно перекодировать каждого пациента в 0/1 до анализа. Можно вывести долю из непрерывной модели, то есть из распределения конечных значений. Если для простоты предположить, что конечная глюкоза в каждой группе примерно нормально распределена с указанными средним и SD, то доля пациентов, достигших <7,0, равна вероятности P(глюкоза < 7,0). Это считается через стандартизацию: Z = (порог − среднее) / SD, а затем берется вероятность слева от Z согласно функции нормального распределения Φ(Z).
Для препарата: Z = (7,0 − 6,8) / 1,4 = 0,2 / 1,4 ≈ 0,14. Φ(0,14) ≈ 0,56. Значит, около 56% пациентов на препарате ожидаемо будут иметь глюкозу <7,0.
Для плацебо: Z = (7,0 − 7,6) / 1,4 = −0,6 / 1,4 ≈ −0,43. Φ(−0,43) ≈ 0,33. Значит, около 33% на плацебо достигнут <7,0.
Вывод для интерпретации можно сделать как «вероятность достижения цели»: 56% против 33%, абсолютная разница 23 процентных пункта; при желании можно вывести относительный риск или отношение шансов. Согласитесь такой вывод намного более интересный, качественный, использующий всю мощность ваших данных!
ВАЖНО! Нормальность распределения не является обязательным условием, чтобы отказаться от дихотомизации. Есть несколько вариантов, если распределение не нормальное: логарифмирование переменных, Box–Cox-преобразование, в конце концов - тест Манна–Уитни. Кстати при тесте Манна-Уитни по сравнению с t-тестом вы теряете примерно 5% мощности данных, а при дихотомизации - 40%. В крайнем случае есть еще логистическая регрессия и др.
Представим РКИ нового антидиабетического препарата против плацебо, 12 недель лечения. Исходная переменная — уровень глюкозы натощак (ммоль/л). Клинически значимый порог для ответа на лечение заранее задан, например «достиг целевого уровня <7,0 ммоль/л к 12-й неделе».
Как часто делают неправильно: берут каждого пациента и превращают уровень глюкозы в крови в 0/1: если <7,0 — «ответил - 1», если ≥7,0 — «не ответил - 0». Дальше сравнивают доли «ответивших». Проблема в том, что пациент с 6,9 и пациент с 4,8 становятся одинаковыми «ответчиками», а пациент с 7,1 и пациент с 12,0 — одинаковыми «неответчиками». Большая часть информации о величине эффекта выбрасывается.
Правильнее использовать подход - «моделировать непрерывно, интерпретировать дихотомически». Пусть в конце исследования получились такие результаты по глюкозе натощак: в группе плацебо среднее 7,6 (SD 1,4) ммоль/л, в группе нового препарата среднее 6,8 (SD 1,4) ммоль/л. Мы сначала проводим основной анализ: сравниваем средние или строим линейную модель с поправкой на исходный уровень глюкозы. Получаем оценку эффекта: препарат снижает глюкозу в среднем на 0,8 ммоль/л по сравнению с плацебо (с доверительным интервалом и p-уровнеме). Это использует всю информацию, потому что учитывает каждое значение.
Дальше нужно дать клиницисту понятный вывод «какая доля достигла цели <7,0». Для этого не обязательно перекодировать каждого пациента в 0/1 до анализа. Можно вывести долю из непрерывной модели, то есть из распределения конечных значений. Если для простоты предположить, что конечная глюкоза в каждой группе примерно нормально распределена с указанными средним и SD, то доля пациентов, достигших <7,0, равна вероятности P(глюкоза < 7,0). Это считается через стандартизацию: Z = (порог − среднее) / SD, а затем берется вероятность слева от Z согласно функции нормального распределения Φ(Z).
Для препарата: Z = (7,0 − 6,8) / 1,4 = 0,2 / 1,4 ≈ 0,14. Φ(0,14) ≈ 0,56. Значит, около 56% пациентов на препарате ожидаемо будут иметь глюкозу <7,0.
Для плацебо: Z = (7,0 − 7,6) / 1,4 = −0,6 / 1,4 ≈ −0,43. Φ(−0,43) ≈ 0,33. Значит, около 33% на плацебо достигнут <7,0.
Вывод для интерпретации можно сделать как «вероятность достижения цели»: 56% против 33%, абсолютная разница 23 процентных пункта; при желании можно вывести относительный риск или отношение шансов. Согласитесь такой вывод намного более интересный, качественный, использующий всю мощность ваших данных!
ВАЖНО! Нормальность распределения не является обязательным условием, чтобы отказаться от дихотомизации. Есть несколько вариантов, если распределение не нормальное: логарифмирование переменных, Box–Cox-преобразование, в конце концов - тест Манна–Уитни. Кстати при тесте Манна-Уитни по сравнению с t-тестом вы теряете примерно 5% мощности данных, а при дихотомизации - 40%. В крайнем случае есть еще логистическая регрессия и др.
Вот это поворот! Похоже ИИ менее склонен к p-хакингу, чем люди
Проведен эксперимент по оценке склонности ИИ-агентов к p-хакингу при анализе реальных датасетов с ранее опубликованными нулевыми (незначимыми) результатами. Современным языковым моделям предлагалось провести статистический анализ и получить статистически значимые эффекты. Когда исследователи прямо просили "сделать анализ так, чтобы получить статистически значимый результат", языковые модели отказывались выполнять задание. В ответах ИИ указывалось, что подобные действия квалифицируются как научная фальсификация и манипуляция анализом. Модели прямо заявляли о недопустимости предвзятого выбора аналитических решений с целью искусственного достижения p<0,05.
Однако при более нейтральной формулировке, например, просьбе "оценить верхнюю границу возможного эффекта" или "учесть неопределенность максимально полно" — поведение менялось. В этом случае ИИ начинал систематически перебирать множество аналитических вариантов: разные наборы ковариат, подвыборки и др. Фактически проводился массовый поиск решений, а затем выбирался вариант с наибольшей оценкой эффекта.
Авторы делают вывод, что ИИ демонстрирует относительную устойчивость к прямым попыткам склонить его к p-хакингу. Тем не менее это можно обойти через переформулировование задачи, что приводит к систематическому завышению эффектов. Отмечено, что степень ущерба возрастает по мере увеличения аналитической гибкости исследовательского дизайна.
Проведен эксперимент по оценке склонности ИИ-агентов к p-хакингу при анализе реальных датасетов с ранее опубликованными нулевыми (незначимыми) результатами. Современным языковым моделям предлагалось провести статистический анализ и получить статистически значимые эффекты. Когда исследователи прямо просили "сделать анализ так, чтобы получить статистически значимый результат", языковые модели отказывались выполнять задание. В ответах ИИ указывалось, что подобные действия квалифицируются как научная фальсификация и манипуляция анализом. Модели прямо заявляли о недопустимости предвзятого выбора аналитических решений с целью искусственного достижения p<0,05.
Однако при более нейтральной формулировке, например, просьбе "оценить верхнюю границу возможного эффекта" или "учесть неопределенность максимально полно" — поведение менялось. В этом случае ИИ начинал систематически перебирать множество аналитических вариантов: разные наборы ковариат, подвыборки и др. Фактически проводился массовый поиск решений, а затем выбирался вариант с наибольшей оценкой эффекта.
Авторы делают вывод, что ИИ демонстрирует относительную устойчивость к прямым попыткам склонить его к p-хакингу. Тем не менее это можно обойти через переформулировование задачи, что приводит к систематическому завышению эффектов. Отмечено, что степень ущерба возрастает по мере увеличения аналитической гибкости исследовательского дизайна.
🗣️ В любом статистическом анализе ключевое значение имеет не столько сам этап анализа, сколько качество исходных данных и их предварительная подготовка. Процесс преданалитической обработки может занимать до 80% общего времени исследования, что определяет его критическую роль в обеспечении достоверности и воспроизводимости результатов. С целью упрощения данного этапа в сервис статИИстик добавлено краткое руководство, регламентирующее требования к структуре и форматированию данных перед их загрузкой и последующим проведением анализа.
👍2
🗣️ В приложение статИИстик добавлены: мета-анализ и сетевой мета-анализ. Чтобы все получилось, обратите внимание, как следует готовить данные. Подсказки есть в разделе "Подготовка данных".
🔥1
Мы тонем в предсказательных медицинских моделях. И большинство из них — иллюзия!
Каждый год публикуются сотни работ, предлагающих новые инструменты прогнозирования для самых разных заболеваний. Они могут выглядеть современно, использовать машинное обучение, сложные алгоритмы и красивые графики. Но реальность гораздо жестче - более 90% этих моделей непригодны для клинической практики. Главная причина — малый размер выборки.
Правильно рассчитанный размер выборки это не чья-то прихоть и не академическая бюрократия. Это математически доказанный факт. Если размер выборки недостаточен, модель становится нестабильной. Если вас учат иначе, если вам говорят, что существуют чудо-программы, которые посчитают корректную прогностическую модель на любой маленькой выборке, и вы сможете просто вставить результат в статью или диссертацию, — не верьте. И тем более не платите за это деньги. А знает почему неверные знания распространяются быстрее, чем правильные? Потому что они проще в использовании, а люди крайне ленивы. Многие записываются на статические курсы даже не понимая, что платят деньги за иллюзии.
При малых выборках возникает эпистемическая неопределенность. Это означает, что одна и та же модель, построенная на разных подвыборках одних и тех же данных, может давать кардинально разные прогнозы для одного и того же пациента. Сегодня риск 20%, завтра — 90%. Прогноз буквально "прыгает". Такие модели просто бесполезны. Они "врут" о вероятностях риска, создавая иллюзию точности. Валидация на малых выборках лишь усиливает эту иллюзию, демонстрируя красивую AUC и якобы хорошую калибровку там, где на самом деле нет стабильности.
Существует распространенный миф, что алгоритмы машинного обучения компенсируют нехватку данных. Это неправда. Факт в том, что сложные алгоритмы требуют в 10 раз больше событий на переменную, чем простая регрессия, чтобы оставаться стабильными. Методы штрафования, такие как LASSO, тоже не являются панацеей от переобучения на малых выборках. Они могут уменьшить вариабельность коэффициентов, но не устраняют фундаментальную проблему нехватки информации.
Важно понимать принципиальное отличие прогнозирования от классических клинических исследований. В прогнозировании нет нулевой гипотезы. Мы не проверяем, работает ли лекарство. Мы строим кривую индивидуального риска. Наша цель — минимизировать неопределенность вокруг прогноза, сузить доверительные интервалы и обеспечить стабильность коэффициентов. Поэтому расчет размера выборки для прогностических моделей принципиально отличается от расчетов для рандомизированных исследований.
Пора забыть эмпирические правила вроде "10–15 событий на предиктор". Они устарели и вводят в заблуждение. Для корректного расчета нужны другие параметры: распространенность прогнозируемого события, количество оцениваемых коэффициентов модели и предполагаемая доля объясненной вариабельности — R² или ожидаемая AUC. Причем под числом параметров понимается именно количество оцениваемых коэффициентов, а не просто число переменных. Один количественный предиктор — один коэффициент. Бинарная переменная — тоже один. Категориальная с k уровнями дает k−1 коэффициентов. Сплайны и полиномы добавляют столько коэффициентов, сколько базисных функций или степеней используется. Каждый член взаимодействия — отдельный коэффициент. Именно это определяет информационную нагрузку модели.
Практически корректный расчет сегодня возможен только с использованием специализированных инструментов, таких как пакеты pmsampsize и pmvalsampsize в R или Python. И не имеет значения, строите ли вы логистическую регрессию или модель на основе ИИ, принципы остаются теми же.
Написано по мотивам лекции Ричарда Райли.
Каждый год публикуются сотни работ, предлагающих новые инструменты прогнозирования для самых разных заболеваний. Они могут выглядеть современно, использовать машинное обучение, сложные алгоритмы и красивые графики. Но реальность гораздо жестче - более 90% этих моделей непригодны для клинической практики. Главная причина — малый размер выборки.
Правильно рассчитанный размер выборки это не чья-то прихоть и не академическая бюрократия. Это математически доказанный факт. Если размер выборки недостаточен, модель становится нестабильной. Если вас учат иначе, если вам говорят, что существуют чудо-программы, которые посчитают корректную прогностическую модель на любой маленькой выборке, и вы сможете просто вставить результат в статью или диссертацию, — не верьте. И тем более не платите за это деньги. А знает почему неверные знания распространяются быстрее, чем правильные? Потому что они проще в использовании, а люди крайне ленивы. Многие записываются на статические курсы даже не понимая, что платят деньги за иллюзии.
При малых выборках возникает эпистемическая неопределенность. Это означает, что одна и та же модель, построенная на разных подвыборках одних и тех же данных, может давать кардинально разные прогнозы для одного и того же пациента. Сегодня риск 20%, завтра — 90%. Прогноз буквально "прыгает". Такие модели просто бесполезны. Они "врут" о вероятностях риска, создавая иллюзию точности. Валидация на малых выборках лишь усиливает эту иллюзию, демонстрируя красивую AUC и якобы хорошую калибровку там, где на самом деле нет стабильности.
Существует распространенный миф, что алгоритмы машинного обучения компенсируют нехватку данных. Это неправда. Факт в том, что сложные алгоритмы требуют в 10 раз больше событий на переменную, чем простая регрессия, чтобы оставаться стабильными. Методы штрафования, такие как LASSO, тоже не являются панацеей от переобучения на малых выборках. Они могут уменьшить вариабельность коэффициентов, но не устраняют фундаментальную проблему нехватки информации.
Важно понимать принципиальное отличие прогнозирования от классических клинических исследований. В прогнозировании нет нулевой гипотезы. Мы не проверяем, работает ли лекарство. Мы строим кривую индивидуального риска. Наша цель — минимизировать неопределенность вокруг прогноза, сузить доверительные интервалы и обеспечить стабильность коэффициентов. Поэтому расчет размера выборки для прогностических моделей принципиально отличается от расчетов для рандомизированных исследований.
Пора забыть эмпирические правила вроде "10–15 событий на предиктор". Они устарели и вводят в заблуждение. Для корректного расчета нужны другие параметры: распространенность прогнозируемого события, количество оцениваемых коэффициентов модели и предполагаемая доля объясненной вариабельности — R² или ожидаемая AUC. Причем под числом параметров понимается именно количество оцениваемых коэффициентов, а не просто число переменных. Один количественный предиктор — один коэффициент. Бинарная переменная — тоже один. Категориальная с k уровнями дает k−1 коэффициентов. Сплайны и полиномы добавляют столько коэффициентов, сколько базисных функций или степеней используется. Каждый член взаимодействия — отдельный коэффициент. Именно это определяет информационную нагрузку модели.
Практически корректный расчет сегодня возможен только с использованием специализированных инструментов, таких как пакеты pmsampsize и pmvalsampsize в R или Python. И не имеет значения, строите ли вы логистическую регрессию или модель на основе ИИ, принципы остаются теми же.
Написано по мотивам лекции Ричарда Райли.
👍2
🗣️ В приложении статИИстик реализован бесплатный калькулятор расчета размера выборки для создания прогностической модели с использованием пакета pmsampsize по методике Ричарда Райли. Потому что качественная прогностическая медицина начинается не с алгоритма, а с достаточного объема данных и строгой методологии.
👍4
🗣️ На днях я впервые выполнил заказной статистический анализ, полностью используя только приложение статИИстик. Методологически задача была не сложная - анализ общей и беспрогрессивной выживаемости, в том числе в зависимости от достижения ответа на терапию по двум разным заболеваниям. Итоговый отчет составил 15 страниц word документа, включая графики выживаемости, таблицы вероятности дожития, интерпретацию результатов, заключение и объяснение методологии примененных методов. Отчеты были сформированы почти автоматически с помощью ИИ и проверены мною, после чего я внес лишь небольшие правки, связанные с контекстом данных. :
Сочетание корректно выполненного статистического анализа и настроенного ИИ в приложении статИИстик - практически работающий инструмент, позволяющий быстро, эффективно и профессионально решать большое количество самых распространенных статических задач.
Пара советов:
- при передаче данных ИИ старайтесь называть переменные так, чтобы они были "ему" понятны. Например, переменную время в анализе выживамости, лучше назвать не Time, а Months или Years, в зависимости от того, в чем она измерена
- при оформлении результатов исследования в своей научной работе, полученных в приложении статИИстик, пишите, что для проведения статистического анализа был использован язык программирования Python, в частности версия 3.10 (или 3.12).
Сочетание корректно выполненного статистического анализа и настроенного ИИ в приложении статИИстик - практически работающий инструмент, позволяющий быстро, эффективно и профессионально решать большое количество самых распространенных статических задач.
Пара советов:
- при передаче данных ИИ старайтесь называть переменные так, чтобы они были "ему" понятны. Например, переменную время в анализе выживамости, лучше назвать не Time, а Months или Years, в зависимости от того, в чем она измерена
- при оформлении результатов исследования в своей научной работе, полученных в приложении статИИстик, пишите, что для проведения статистического анализа был использован язык программирования Python, в частности версия 3.10 (или 3.12).
🔥7
Как искать конфаундеры с помощью GLM. Часть 1.
Недавно передо мной стояла задача сравнить две группы пациентов по числу проведенных аферезов гемопоэтических стволовых клеток (ГСК) и по количеству заготовленных ГСК. На первом этапе все достаточно просто: можно использовать стандартные методы сравнения количественных показателей между двумя группами — например, тест Уэлча, Брауна–Муда или Манна–Уитни. Это позволяет оценить, есть ли различия между группами в целом. Это есть в приложении статИИстик.
Однако далее задача усложнилась. Нужно было понять, объясняются ли найденные различия только основной группирующей переменной или на результат также влияют другие факторы. Такие факторы называются конфаундерами — они могут искажать оценку эффекта, если их не учитывать в модели. В обсервационных исследованиях одной из главных методологических проблем является конфаундинг — ситуация, при которой связь между экспозицией и исходом искажается третьей переменной. Конфаундер связан как с воздействием, так и с исходом, и при его игнорировании оценка эффекта может быть смещена. Подробнее можно почитать здесь.
Для решения этой задачи применяются обобщенные линейные модели (GLM), которые позволяют анализировать влияние нескольких факторов одновременно. Подробнее здесь. Сложность заключалась в типе зависимых переменных. В одном случае это было число процедур (дискретные значения от 1 до 7), в другом — количество заготовленных клеток (непрерывная положительная величина). При этом все независимые переменные, включая основную группирующую и возможные конфаундеры, были бинарными.
Классическая линейная регрессия здесь не подходит, потому что она предполагает нормальное распределение зависимой переменной. Логистическая регрессия тоже не подходит, так как используется для бинарных исходов. Поэтому для анализа числа аферезов была выбрана регрессия Пуассона, которая предназначена для моделирования счетных данных. А для анализа количества заготовленных клеток использовалась гамма-регрессия, поскольку эта модель лучше подходит для непрерывных положительных показателей с асимметричным распределением.
В моделях обобщенной линейной регрессии, включая линейную, логистическую и пуассоновскую регрессию, один из наиболее распространенных практических подходов к выявлению конфаундеров основан на оценке изменения коэффициента регрессии при добавлении потенциальной переменной в модель.
Сначала строится «грубая» модель без конфаундеров. Затем добавляется предполагаемый конфаундер, и сравнивается коэффициент регрессии у основного переменной (группирующей). То есть мы усложняем модель и смотрим как ведут себя коэффциенты регрессии. Если после добавления новой переменной коэффициент заметно изменяется, это трактуется как наличие конфаундинга. Исторически в литературе закрепилось эмпирическое правило: если изменение превышает 10%, переменную считают конфаундером и оставляют в модели. На этом задачу можно считать выполненной. Кто не хочет на этом останавливаться, читайте часть 2.
Недавно передо мной стояла задача сравнить две группы пациентов по числу проведенных аферезов гемопоэтических стволовых клеток (ГСК) и по количеству заготовленных ГСК. На первом этапе все достаточно просто: можно использовать стандартные методы сравнения количественных показателей между двумя группами — например, тест Уэлча, Брауна–Муда или Манна–Уитни. Это позволяет оценить, есть ли различия между группами в целом. Это есть в приложении статИИстик.
Однако далее задача усложнилась. Нужно было понять, объясняются ли найденные различия только основной группирующей переменной или на результат также влияют другие факторы. Такие факторы называются конфаундерами — они могут искажать оценку эффекта, если их не учитывать в модели. В обсервационных исследованиях одной из главных методологических проблем является конфаундинг — ситуация, при которой связь между экспозицией и исходом искажается третьей переменной. Конфаундер связан как с воздействием, так и с исходом, и при его игнорировании оценка эффекта может быть смещена. Подробнее можно почитать здесь.
Для решения этой задачи применяются обобщенные линейные модели (GLM), которые позволяют анализировать влияние нескольких факторов одновременно. Подробнее здесь. Сложность заключалась в типе зависимых переменных. В одном случае это было число процедур (дискретные значения от 1 до 7), в другом — количество заготовленных клеток (непрерывная положительная величина). При этом все независимые переменные, включая основную группирующую и возможные конфаундеры, были бинарными.
Классическая линейная регрессия здесь не подходит, потому что она предполагает нормальное распределение зависимой переменной. Логистическая регрессия тоже не подходит, так как используется для бинарных исходов. Поэтому для анализа числа аферезов была выбрана регрессия Пуассона, которая предназначена для моделирования счетных данных. А для анализа количества заготовленных клеток использовалась гамма-регрессия, поскольку эта модель лучше подходит для непрерывных положительных показателей с асимметричным распределением.
В моделях обобщенной линейной регрессии, включая линейную, логистическую и пуассоновскую регрессию, один из наиболее распространенных практических подходов к выявлению конфаундеров основан на оценке изменения коэффициента регрессии при добавлении потенциальной переменной в модель.
Сначала строится «грубая» модель без конфаундеров. Затем добавляется предполагаемый конфаундер, и сравнивается коэффициент регрессии у основного переменной (группирующей). То есть мы усложняем модель и смотрим как ведут себя коэффциенты регрессии. Если после добавления новой переменной коэффициент заметно изменяется, это трактуется как наличие конфаундинга. Исторически в литературе закрепилось эмпирическое правило: если изменение превышает 10%, переменную считают конфаундером и оставляют в модели. На этом задачу можно считать выполненной. Кто не хочет на этом останавливаться, читайте часть 2.
🔥1
Как искать конфаундеры с помощью GLM. Часть 2.
Правило 10% является условным и не имеет универсального статистического обоснования. Величина возможного изменения коэффициента регрессии зависит от размера выборки, силы эффекта, дисперсии данных и структуры корреляций между переменными. В больших выборках даже небольшие изменения могут быть статистически значимыми, тогда как в малых выборках 10%может быть слишком строгим или, наоборот, слишком мягким критерием. Таким образом, фиксированный порог не учитывает характеристики конкретных данных и может приводить к неправильным решениям о включении или исключении переменных.
Более обоснованный подход заключается в том, чтобы вычислить индивидуальный порог для конкретной модели. Для этого в модель многократно добавляют случайную, не связанную с исходом переменную и оценивают, насколько изменяется коэффициент экспозиции исключительно из-за случайного шума. Методика простая, описана здесь. Мы берем исходную модель и многократно добавляем в нее искусственно созданную случайную переменную — просто набор случайных чисел той же длины, что и выборка. Эта переменная никак не связана ни с исходом, ни с основной переменной интереса и служит моделью "чистого шума". Каждый раз после ее добавления пересчитывается модель и фиксируется, насколько изменился коэффициент при основной переменной. Такую процедуру повторяют, например, 10 000 раз. В результате получается распределение случайных изменений коэффициента, и по его верхнему перцентилю определяется порог, выше которого изменение уже нельзя объяснить простым статистическим шумом.
Затем берут верхний перцентиль распределения этих изменений, например 95-й, и используют его как адаптивный порог. Такой метод позволяет оценить, какое изменение может возникнуть случайно, и отделить его от систематического влияния реального конфаундера. В отличие от фиксированного правила 10%, этот подход учитывает параметры модели и особенности выборки, обеспечивая статистически более корректную идентификацию конфаундирующих факторов.
При этом важно понимать, что любой метод, основанный на данных, включая критерий изменения коэффициента, не заменяет каузального мышления. Решение о включении переменной в модель должно учитывать предметные знания и причинную структуру, а не только числовой порог изменения коэффициента.
Правило 10% является условным и не имеет универсального статистического обоснования. Величина возможного изменения коэффициента регрессии зависит от размера выборки, силы эффекта, дисперсии данных и структуры корреляций между переменными. В больших выборках даже небольшие изменения могут быть статистически значимыми, тогда как в малых выборках 10%может быть слишком строгим или, наоборот, слишком мягким критерием. Таким образом, фиксированный порог не учитывает характеристики конкретных данных и может приводить к неправильным решениям о включении или исключении переменных.
Более обоснованный подход заключается в том, чтобы вычислить индивидуальный порог для конкретной модели. Для этого в модель многократно добавляют случайную, не связанную с исходом переменную и оценивают, насколько изменяется коэффициент экспозиции исключительно из-за случайного шума. Методика простая, описана здесь. Мы берем исходную модель и многократно добавляем в нее искусственно созданную случайную переменную — просто набор случайных чисел той же длины, что и выборка. Эта переменная никак не связана ни с исходом, ни с основной переменной интереса и служит моделью "чистого шума". Каждый раз после ее добавления пересчитывается модель и фиксируется, насколько изменился коэффициент при основной переменной. Такую процедуру повторяют, например, 10 000 раз. В результате получается распределение случайных изменений коэффициента, и по его верхнему перцентилю определяется порог, выше которого изменение уже нельзя объяснить простым статистическим шумом.
Затем берут верхний перцентиль распределения этих изменений, например 95-й, и используют его как адаптивный порог. Такой метод позволяет оценить, какое изменение может возникнуть случайно, и отделить его от систематического влияния реального конфаундера. В отличие от фиксированного правила 10%, этот подход учитывает параметры модели и особенности выборки, обеспечивая статистически более корректную идентификацию конфаундирующих факторов.
При этом важно понимать, что любой метод, основанный на данных, включая критерий изменения коэффициента, не заменяет каузального мышления. Решение о включении переменной в модель должно учитывать предметные знания и причинную структуру, а не только числовой порог изменения коэффициента.
PubMed Central (PMC)
Is a Cutoff of 10% Appropriate for the Change-in-Estimate Criterion of Confounder Identification?
When using the change-in-estimate criterion, a cutoff of 10% is commonly used to identify confounders. However, the appropriateness of this cutoff has never been evaluated. This study investigated cutoffs required under different conditions. Four ...
🔥1
🗣️ В приложении статИИстик добавлен новый анализ - линейная регрессия. Это статистический метод прогнозирования значения постоянной зависимой количественной переменной на основе одной или нескольких независимых переменных. Он оценивает взаимосвязь с помощью линейного уравнения. Линейное уравнение - прямая линия, которая моделирует связь между зависимой и независимой переменными, показывая, как изменения входящих характеристик влияют на целевое значение.
Подробне про допущения к методу можно почитать здесь. Еще больше информации в можете найти в "справочных материалах" на сайте.
Подробне про допущения к методу можно почитать здесь. Еще больше информации в можете найти в "справочных материалах" на сайте.
👍2