🗣️ В приложение статИИстик добавлен регрессионный анализ Кокса с построением dose–response кривых, позволяющих оценить характер взаимосвязи между значением предиктора и величиной отношения рисков (HR), включая линейные и нелинейные зависимости. Данный тип визуализации имеет принципиальное значение, поскольку связь между уровнем предиктора и риском наступления события нередко носит нелинейный характер. Так, при сепсисе как гипотермия, так и гипертермия у пациентов ассоциируются с повышенным риском летального исхода. Кроме того, использование таких графиков позволяет наглядно идентифицировать потенциальное пороговое значение предиктора в случаях, когда принимается решение о его определении и последующем применении в практике.
👍3🔥1
Про точность диагностических тестов и истинную вероятность заболевания
Как диагностический тест с заявленной точностью 99% при его положительном результате может соответствовать лишь приблизительно 9% вероятности наличия заболевания? Этот парадокс иллюстрирует принципиальное различие между специфичностью теста и его положительной прогностической ценностью. Чувствительность и специфичность являются внутренними, неизменными характеристиками диагностического метода и не учитывают распространенность заболевания в популяции. Напротив, положительная прогностическая ценность (PPV), отражающая вероятность того, что положительный результат действительно указывает на наличие заболевания, напрямую зависит от распространенности патологии и потому имеет для клинической практики большее значение, чем показатели чувствительности и специфичности. Вместе с тем ее оценка представляет большую сложность, поскольку требует клинического представления о вероятности заболевания именно у конкретного пациента. При низкой распространенности заболевания даже высококачественный тест будет давать преобладание ложноположительных результатов. По этой причине скрининг пациентов с низким риском может приводить к значительному числу ложноположительных находок и, как следствие, к потенциальному вреду. Различие между специфичностью и положительной прогностической ценностью является одним из ключевых концептов современной медицины. Для его лучшего понимания целесообразно использовать расчетные модели, варьируя показатели распространенности заболевания и наблюдая, насколько существенно меняются диагностические характеристики теста в зависимости от изучаемой популяции.
Вы можете самостоятельно поэкспериментировать с различными метриками диагностического теста, указывая разную распространенность заболевания, в калькуляторе по ссылке: https://mdcopilot.ru/api/statistic/prevalence.html
Как диагностический тест с заявленной точностью 99% при его положительном результате может соответствовать лишь приблизительно 9% вероятности наличия заболевания? Этот парадокс иллюстрирует принципиальное различие между специфичностью теста и его положительной прогностической ценностью. Чувствительность и специфичность являются внутренними, неизменными характеристиками диагностического метода и не учитывают распространенность заболевания в популяции. Напротив, положительная прогностическая ценность (PPV), отражающая вероятность того, что положительный результат действительно указывает на наличие заболевания, напрямую зависит от распространенности патологии и потому имеет для клинической практики большее значение, чем показатели чувствительности и специфичности. Вместе с тем ее оценка представляет большую сложность, поскольку требует клинического представления о вероятности заболевания именно у конкретного пациента. При низкой распространенности заболевания даже высококачественный тест будет давать преобладание ложноположительных результатов. По этой причине скрининг пациентов с низким риском может приводить к значительному числу ложноположительных находок и, как следствие, к потенциальному вреду. Различие между специфичностью и положительной прогностической ценностью является одним из ключевых концептов современной медицины. Для его лучшего понимания целесообразно использовать расчетные модели, варьируя показатели распространенности заболевания и наблюдая, насколько существенно меняются диагностические характеристики теста в зависимости от изучаемой популяции.
Вы можете самостоятельно поэкспериментировать с различными метриками диагностического теста, указывая разную распространенность заболевания, в калькуляторе по ссылке: https://mdcopilot.ru/api/statistic/prevalence.html
👍1🔥1
☕ Кофе улучшает когнитивные функции и снижает риск развития деменции. Более 130 000 человек наблюдались в течение 37 лет.
Положительный эффект наблюдается только при употреблении кофе или чая с кофеином, заметен при употреблении примерно 2 чашек в день и не нарастает при употреблении более 3 чашек в день. В статье, посвященной исследованию, также имеется визуализация в виде dose-response кривых, которые, напомню, автоматически строятся в приложении статИИстик (в разделе - регрессия Кокса) и помогают определить характер тренда.
Положительный эффект наблюдается только при употреблении кофе или чая с кофеином, заметен при употреблении примерно 2 чашек в день и не нарастает при употреблении более 3 чашек в день. В статье, посвященной исследованию, также имеется визуализация в виде dose-response кривых, которые, напомню, автоматически строятся в приложении статИИстик (в разделе - регрессия Кокса) и помогают определить характер тренда.
🔥2👍1
Фрэнк Харрелл против дихотомизации данных
В очередной раз затронута проблема дихотомизации данных в новой публикации при участии широко известного в статистических кругах профессора Ф. Харрелла. По результатам анализа 21 435 уникальных рандомизированных контролируемых исследований из базы данных Cochrane Database, 7224 исследования (34%) использовали непрерывные числовые исходы, тогда как 14 211 (66%) — бинарные. Установлено, что РКИ с бинарными исходами характеризуются в среднем большими размерами выборки, однако при этом демонстрируют большие стандартные ошибки и меньшую долю статистически значимых результатов.
Авторы делают вывод, что увеличение объема выборки частично компенсирует низкую информационную емкость бинарных исходов, но эта компенсация недостаточна. Во многих случаях бинарные показатели являются результатом дихотомизации непрерывных переменных, что приводит к потере информации. При этом в среднем теряется около 40% информации — сохраняется лишь 60% статистической мощности. Увеличение выборки частично компенсирует потери, но недостаточно, что ведет к неоправданному вовлечению дополнительных участников и росту затрат. Использование большего числа участников без необходимости рассматривается как экономически неэффективное и неэтичное.
Авторы предлагают рассчитывать выборку и проводить анализ для непрерывных данных, а клиническую интерпретацию представлять в дихотомическом виде. Такой подход позволяет существенно сократить размер выборки без потери точности и избежать ненужной утраты информации. Для этого предложен метод преобразования расчета объема выборки для сравнения двух пропорций в эквивалентный расчет для сравнения средних значений непрерывных исходов, что позволяет количественно оценить потенциальное сокращение выборки при отказе от дихотомизации. Интерактивный калькулятор доступен по ссылке: https://vanzwet.shinyapps.io/info_loss
В очередной раз затронута проблема дихотомизации данных в новой публикации при участии широко известного в статистических кругах профессора Ф. Харрелла. По результатам анализа 21 435 уникальных рандомизированных контролируемых исследований из базы данных Cochrane Database, 7224 исследования (34%) использовали непрерывные числовые исходы, тогда как 14 211 (66%) — бинарные. Установлено, что РКИ с бинарными исходами характеризуются в среднем большими размерами выборки, однако при этом демонстрируют большие стандартные ошибки и меньшую долю статистически значимых результатов.
Авторы делают вывод, что увеличение объема выборки частично компенсирует низкую информационную емкость бинарных исходов, но эта компенсация недостаточна. Во многих случаях бинарные показатели являются результатом дихотомизации непрерывных переменных, что приводит к потере информации. При этом в среднем теряется около 40% информации — сохраняется лишь 60% статистической мощности. Увеличение выборки частично компенсирует потери, но недостаточно, что ведет к неоправданному вовлечению дополнительных участников и росту затрат. Использование большего числа участников без необходимости рассматривается как экономически неэффективное и неэтичное.
Авторы предлагают рассчитывать выборку и проводить анализ для непрерывных данных, а клиническую интерпретацию представлять в дихотомическом виде. Такой подход позволяет существенно сократить размер выборки без потери точности и избежать ненужной утраты информации. Для этого предложен метод преобразования расчета объема выборки для сравнения двух пропорций в эквивалентный расчет для сравнения средних значений непрерывных исходов, что позволяет количественно оценить потенциальное сокращение выборки при отказе от дихотомизации. Интерактивный калькулятор доступен по ссылке: https://vanzwet.shinyapps.io/info_loss
PubMed Central (PMC)
An Empirical Assessment of the Cost of Dichotomization of the Outcome of Clinical Trials
We have studied 21 435 unique randomized controlled trials (RCTs) from the Cochrane Database of Systematic Reviews (CDSR). Of these trials, 7224 (34%) have a continuous (numerical) outcome and 14 211 (66%) have a binary outcome. We find that trials ...
А теперь пример:
Представим РКИ нового антидиабетического препарата против плацебо, 12 недель лечения. Исходная переменная — уровень глюкозы натощак (ммоль/л). Клинически значимый порог для ответа на лечение заранее задан, например «достиг целевого уровня <7,0 ммоль/л к 12-й неделе».
Как часто делают неправильно: берут каждого пациента и превращают уровень глюкозы в крови в 0/1: если <7,0 — «ответил - 1», если ≥7,0 — «не ответил - 0». Дальше сравнивают доли «ответивших». Проблема в том, что пациент с 6,9 и пациент с 4,8 становятся одинаковыми «ответчиками», а пациент с 7,1 и пациент с 12,0 — одинаковыми «неответчиками». Большая часть информации о величине эффекта выбрасывается.
Правильнее использовать подход - «моделировать непрерывно, интерпретировать дихотомически». Пусть в конце исследования получились такие результаты по глюкозе натощак: в группе плацебо среднее 7,6 (SD 1,4) ммоль/л, в группе нового препарата среднее 6,8 (SD 1,4) ммоль/л. Мы сначала проводим основной анализ: сравниваем средние или строим линейную модель с поправкой на исходный уровень глюкозы. Получаем оценку эффекта: препарат снижает глюкозу в среднем на 0,8 ммоль/л по сравнению с плацебо (с доверительным интервалом и p-уровнеме). Это использует всю информацию, потому что учитывает каждое значение.
Дальше нужно дать клиницисту понятный вывод «какая доля достигла цели <7,0». Для этого не обязательно перекодировать каждого пациента в 0/1 до анализа. Можно вывести долю из непрерывной модели, то есть из распределения конечных значений. Если для простоты предположить, что конечная глюкоза в каждой группе примерно нормально распределена с указанными средним и SD, то доля пациентов, достигших <7,0, равна вероятности P(глюкоза < 7,0). Это считается через стандартизацию: Z = (порог − среднее) / SD, а затем берется вероятность слева от Z согласно функции нормального распределения Φ(Z).
Для препарата: Z = (7,0 − 6,8) / 1,4 = 0,2 / 1,4 ≈ 0,14. Φ(0,14) ≈ 0,56. Значит, около 56% пациентов на препарате ожидаемо будут иметь глюкозу <7,0.
Для плацебо: Z = (7,0 − 7,6) / 1,4 = −0,6 / 1,4 ≈ −0,43. Φ(−0,43) ≈ 0,33. Значит, около 33% на плацебо достигнут <7,0.
Вывод для интерпретации можно сделать как «вероятность достижения цели»: 56% против 33%, абсолютная разница 23 процентных пункта; при желании можно вывести относительный риск или отношение шансов. Согласитесь такой вывод намного более интересный, качественный, использующий всю мощность ваших данных!
ВАЖНО! Нормальность распределения не является обязательным условием, чтобы отказаться от дихотомизации. Есть несколько вариантов, если распределение не нормальное: логарифмирование переменных, Box–Cox-преобразование, в конце концов - тест Манна–Уитни. Кстати при тесте Манна-Уитни по сравнению с t-тестом вы теряете примерно 5% мощности данных, а при дихотомизации - 40%. В крайнем случае есть еще логистическая регрессия и др.
Представим РКИ нового антидиабетического препарата против плацебо, 12 недель лечения. Исходная переменная — уровень глюкозы натощак (ммоль/л). Клинически значимый порог для ответа на лечение заранее задан, например «достиг целевого уровня <7,0 ммоль/л к 12-й неделе».
Как часто делают неправильно: берут каждого пациента и превращают уровень глюкозы в крови в 0/1: если <7,0 — «ответил - 1», если ≥7,0 — «не ответил - 0». Дальше сравнивают доли «ответивших». Проблема в том, что пациент с 6,9 и пациент с 4,8 становятся одинаковыми «ответчиками», а пациент с 7,1 и пациент с 12,0 — одинаковыми «неответчиками». Большая часть информации о величине эффекта выбрасывается.
Правильнее использовать подход - «моделировать непрерывно, интерпретировать дихотомически». Пусть в конце исследования получились такие результаты по глюкозе натощак: в группе плацебо среднее 7,6 (SD 1,4) ммоль/л, в группе нового препарата среднее 6,8 (SD 1,4) ммоль/л. Мы сначала проводим основной анализ: сравниваем средние или строим линейную модель с поправкой на исходный уровень глюкозы. Получаем оценку эффекта: препарат снижает глюкозу в среднем на 0,8 ммоль/л по сравнению с плацебо (с доверительным интервалом и p-уровнеме). Это использует всю информацию, потому что учитывает каждое значение.
Дальше нужно дать клиницисту понятный вывод «какая доля достигла цели <7,0». Для этого не обязательно перекодировать каждого пациента в 0/1 до анализа. Можно вывести долю из непрерывной модели, то есть из распределения конечных значений. Если для простоты предположить, что конечная глюкоза в каждой группе примерно нормально распределена с указанными средним и SD, то доля пациентов, достигших <7,0, равна вероятности P(глюкоза < 7,0). Это считается через стандартизацию: Z = (порог − среднее) / SD, а затем берется вероятность слева от Z согласно функции нормального распределения Φ(Z).
Для препарата: Z = (7,0 − 6,8) / 1,4 = 0,2 / 1,4 ≈ 0,14. Φ(0,14) ≈ 0,56. Значит, около 56% пациентов на препарате ожидаемо будут иметь глюкозу <7,0.
Для плацебо: Z = (7,0 − 7,6) / 1,4 = −0,6 / 1,4 ≈ −0,43. Φ(−0,43) ≈ 0,33. Значит, около 33% на плацебо достигнут <7,0.
Вывод для интерпретации можно сделать как «вероятность достижения цели»: 56% против 33%, абсолютная разница 23 процентных пункта; при желании можно вывести относительный риск или отношение шансов. Согласитесь такой вывод намного более интересный, качественный, использующий всю мощность ваших данных!
ВАЖНО! Нормальность распределения не является обязательным условием, чтобы отказаться от дихотомизации. Есть несколько вариантов, если распределение не нормальное: логарифмирование переменных, Box–Cox-преобразование, в конце концов - тест Манна–Уитни. Кстати при тесте Манна-Уитни по сравнению с t-тестом вы теряете примерно 5% мощности данных, а при дихотомизации - 40%. В крайнем случае есть еще логистическая регрессия и др.
Вот это поворот! Похоже ИИ менее склонен к p-хакингу, чем люди
Проведен эксперимент по оценке склонности ИИ-агентов к p-хакингу при анализе реальных датасетов с ранее опубликованными нулевыми (незначимыми) результатами. Современным языковым моделям предлагалось провести статистический анализ и получить статистически значимые эффекты. Когда исследователи прямо просили "сделать анализ так, чтобы получить статистически значимый результат", языковые модели отказывались выполнять задание. В ответах ИИ указывалось, что подобные действия квалифицируются как научная фальсификация и манипуляция анализом. Модели прямо заявляли о недопустимости предвзятого выбора аналитических решений с целью искусственного достижения p<0,05.
Однако при более нейтральной формулировке, например, просьбе "оценить верхнюю границу возможного эффекта" или "учесть неопределенность максимально полно" — поведение менялось. В этом случае ИИ начинал систематически перебирать множество аналитических вариантов: разные наборы ковариат, подвыборки и др. Фактически проводился массовый поиск решений, а затем выбирался вариант с наибольшей оценкой эффекта.
Авторы делают вывод, что ИИ демонстрирует относительную устойчивость к прямым попыткам склонить его к p-хакингу. Тем не менее это можно обойти через переформулировование задачи, что приводит к систематическому завышению эффектов. Отмечено, что степень ущерба возрастает по мере увеличения аналитической гибкости исследовательского дизайна.
Проведен эксперимент по оценке склонности ИИ-агентов к p-хакингу при анализе реальных датасетов с ранее опубликованными нулевыми (незначимыми) результатами. Современным языковым моделям предлагалось провести статистический анализ и получить статистически значимые эффекты. Когда исследователи прямо просили "сделать анализ так, чтобы получить статистически значимый результат", языковые модели отказывались выполнять задание. В ответах ИИ указывалось, что подобные действия квалифицируются как научная фальсификация и манипуляция анализом. Модели прямо заявляли о недопустимости предвзятого выбора аналитических решений с целью искусственного достижения p<0,05.
Однако при более нейтральной формулировке, например, просьбе "оценить верхнюю границу возможного эффекта" или "учесть неопределенность максимально полно" — поведение менялось. В этом случае ИИ начинал систематически перебирать множество аналитических вариантов: разные наборы ковариат, подвыборки и др. Фактически проводился массовый поиск решений, а затем выбирался вариант с наибольшей оценкой эффекта.
Авторы делают вывод, что ИИ демонстрирует относительную устойчивость к прямым попыткам склонить его к p-хакингу. Тем не менее это можно обойти через переформулировование задачи, что приводит к систематическому завышению эффектов. Отмечено, что степень ущерба возрастает по мере увеличения аналитической гибкости исследовательского дизайна.
🗣️ В любом статистическом анализе ключевое значение имеет не столько сам этап анализа, сколько качество исходных данных и их предварительная подготовка. Процесс преданалитической обработки может занимать до 80% общего времени исследования, что определяет его критическую роль в обеспечении достоверности и воспроизводимости результатов. С целью упрощения данного этапа в сервис статИИстик добавлено краткое руководство, регламентирующее требования к структуре и форматированию данных перед их загрузкой и последующим проведением анализа.
👍2
🗣️ В приложение статИИстик добавлены: мета-анализ и сетевой мета-анализ. Чтобы все получилось, обратите внимание, как следует готовить данные. Подсказки есть в разделе "Подготовка данных".
🔥1
Мы тонем в предсказательных медицинских моделях. И большинство из них — иллюзия!
Каждый год публикуются сотни работ, предлагающих новые инструменты прогнозирования для самых разных заболеваний. Они могут выглядеть современно, использовать машинное обучение, сложные алгоритмы и красивые графики. Но реальность гораздо жестче - более 90% этих моделей непригодны для клинической практики. Главная причина — малый размер выборки.
Правильно рассчитанный размер выборки это не чья-то прихоть и не академическая бюрократия. Это математически доказанный факт. Если размер выборки недостаточен, модель становится нестабильной. Если вас учат иначе, если вам говорят, что существуют чудо-программы, которые посчитают корректную прогностическую модель на любой маленькой выборке, и вы сможете просто вставить результат в статью или диссертацию, — не верьте. И тем более не платите за это деньги. А знает почему неверные знания распространяются быстрее, чем правильные? Потому что они проще в использовании, а люди крайне ленивы. Многие записываются на статические курсы даже не понимая, что платят деньги за иллюзии.
При малых выборках возникает эпистемическая неопределенность. Это означает, что одна и та же модель, построенная на разных подвыборках одних и тех же данных, может давать кардинально разные прогнозы для одного и того же пациента. Сегодня риск 20%, завтра — 90%. Прогноз буквально "прыгает". Такие модели просто бесполезны. Они "врут" о вероятностях риска, создавая иллюзию точности. Валидация на малых выборках лишь усиливает эту иллюзию, демонстрируя красивую AUC и якобы хорошую калибровку там, где на самом деле нет стабильности.
Существует распространенный миф, что алгоритмы машинного обучения компенсируют нехватку данных. Это неправда. Факт в том, что сложные алгоритмы требуют в 10 раз больше событий на переменную, чем простая регрессия, чтобы оставаться стабильными. Методы штрафования, такие как LASSO, тоже не являются панацеей от переобучения на малых выборках. Они могут уменьшить вариабельность коэффициентов, но не устраняют фундаментальную проблему нехватки информации.
Важно понимать принципиальное отличие прогнозирования от классических клинических исследований. В прогнозировании нет нулевой гипотезы. Мы не проверяем, работает ли лекарство. Мы строим кривую индивидуального риска. Наша цель — минимизировать неопределенность вокруг прогноза, сузить доверительные интервалы и обеспечить стабильность коэффициентов. Поэтому расчет размера выборки для прогностических моделей принципиально отличается от расчетов для рандомизированных исследований.
Пора забыть эмпирические правила вроде "10–15 событий на предиктор". Они устарели и вводят в заблуждение. Для корректного расчета нужны другие параметры: распространенность прогнозируемого события, количество оцениваемых коэффициентов модели и предполагаемая доля объясненной вариабельности — R² или ожидаемая AUC. Причем под числом параметров понимается именно количество оцениваемых коэффициентов, а не просто число переменных. Один количественный предиктор — один коэффициент. Бинарная переменная — тоже один. Категориальная с k уровнями дает k−1 коэффициентов. Сплайны и полиномы добавляют столько коэффициентов, сколько базисных функций или степеней используется. Каждый член взаимодействия — отдельный коэффициент. Именно это определяет информационную нагрузку модели.
Практически корректный расчет сегодня возможен только с использованием специализированных инструментов, таких как пакеты pmsampsize и pmvalsampsize в R или Python. И не имеет значения, строите ли вы логистическую регрессию или модель на основе ИИ, принципы остаются теми же.
Написано по мотивам лекции Ричарда Райли.
Каждый год публикуются сотни работ, предлагающих новые инструменты прогнозирования для самых разных заболеваний. Они могут выглядеть современно, использовать машинное обучение, сложные алгоритмы и красивые графики. Но реальность гораздо жестче - более 90% этих моделей непригодны для клинической практики. Главная причина — малый размер выборки.
Правильно рассчитанный размер выборки это не чья-то прихоть и не академическая бюрократия. Это математически доказанный факт. Если размер выборки недостаточен, модель становится нестабильной. Если вас учат иначе, если вам говорят, что существуют чудо-программы, которые посчитают корректную прогностическую модель на любой маленькой выборке, и вы сможете просто вставить результат в статью или диссертацию, — не верьте. И тем более не платите за это деньги. А знает почему неверные знания распространяются быстрее, чем правильные? Потому что они проще в использовании, а люди крайне ленивы. Многие записываются на статические курсы даже не понимая, что платят деньги за иллюзии.
При малых выборках возникает эпистемическая неопределенность. Это означает, что одна и та же модель, построенная на разных подвыборках одних и тех же данных, может давать кардинально разные прогнозы для одного и того же пациента. Сегодня риск 20%, завтра — 90%. Прогноз буквально "прыгает". Такие модели просто бесполезны. Они "врут" о вероятностях риска, создавая иллюзию точности. Валидация на малых выборках лишь усиливает эту иллюзию, демонстрируя красивую AUC и якобы хорошую калибровку там, где на самом деле нет стабильности.
Существует распространенный миф, что алгоритмы машинного обучения компенсируют нехватку данных. Это неправда. Факт в том, что сложные алгоритмы требуют в 10 раз больше событий на переменную, чем простая регрессия, чтобы оставаться стабильными. Методы штрафования, такие как LASSO, тоже не являются панацеей от переобучения на малых выборках. Они могут уменьшить вариабельность коэффициентов, но не устраняют фундаментальную проблему нехватки информации.
Важно понимать принципиальное отличие прогнозирования от классических клинических исследований. В прогнозировании нет нулевой гипотезы. Мы не проверяем, работает ли лекарство. Мы строим кривую индивидуального риска. Наша цель — минимизировать неопределенность вокруг прогноза, сузить доверительные интервалы и обеспечить стабильность коэффициентов. Поэтому расчет размера выборки для прогностических моделей принципиально отличается от расчетов для рандомизированных исследований.
Пора забыть эмпирические правила вроде "10–15 событий на предиктор". Они устарели и вводят в заблуждение. Для корректного расчета нужны другие параметры: распространенность прогнозируемого события, количество оцениваемых коэффициентов модели и предполагаемая доля объясненной вариабельности — R² или ожидаемая AUC. Причем под числом параметров понимается именно количество оцениваемых коэффициентов, а не просто число переменных. Один количественный предиктор — один коэффициент. Бинарная переменная — тоже один. Категориальная с k уровнями дает k−1 коэффициентов. Сплайны и полиномы добавляют столько коэффициентов, сколько базисных функций или степеней используется. Каждый член взаимодействия — отдельный коэффициент. Именно это определяет информационную нагрузку модели.
Практически корректный расчет сегодня возможен только с использованием специализированных инструментов, таких как пакеты pmsampsize и pmvalsampsize в R или Python. И не имеет значения, строите ли вы логистическую регрессию или модель на основе ИИ, принципы остаются теми же.
Написано по мотивам лекции Ричарда Райли.
👍2
🗣️ В приложении статИИстик реализован бесплатный калькулятор расчета размера выборки для создания прогностической модели с использованием пакета pmsampsize по методике Ричарда Райли. Потому что качественная прогностическая медицина начинается не с алгоритма, а с достаточного объема данных и строгой методологии.
👍4
🗣️ На днях я впервые выполнил заказной статистический анализ, полностью используя только приложение статИИстик. Методологически задача была не сложная - анализ общей и беспрогрессивной выживаемости, в том числе в зависимости от достижения ответа на терапию по двум разным заболеваниям. Итоговый отчет составил 15 страниц word документа, включая графики выживаемости, таблицы вероятности дожития, интерпретацию результатов, заключение и объяснение методологии примененных методов. Отчеты были сформированы почти автоматически с помощью ИИ и проверены мною, после чего я внес лишь небольшие правки, связанные с контекстом данных. :
Сочетание корректно выполненного статистического анализа и настроенного ИИ в приложении статИИстик - практически работающий инструмент, позволяющий быстро, эффективно и профессионально решать большое количество самых распространенных статических задач.
Пара советов:
- при передаче данных ИИ старайтесь называть переменные так, чтобы они были "ему" понятны. Например, переменную время в анализе выживамости, лучше назвать не Time, а Months или Years, в зависимости от того, в чем она измерена
- при оформлении результатов исследования в своей научной работе, полученных в приложении статИИстик, пишите, что для проведения статистического анализа был использован язык программирования Python, в частности версия 3.10 (или 3.12).
Сочетание корректно выполненного статистического анализа и настроенного ИИ в приложении статИИстик - практически работающий инструмент, позволяющий быстро, эффективно и профессионально решать большое количество самых распространенных статических задач.
Пара советов:
- при передаче данных ИИ старайтесь называть переменные так, чтобы они были "ему" понятны. Например, переменную время в анализе выживамости, лучше назвать не Time, а Months или Years, в зависимости от того, в чем она измерена
- при оформлении результатов исследования в своей научной работе, полученных в приложении статИИстик, пишите, что для проведения статистического анализа был использован язык программирования Python, в частности версия 3.10 (или 3.12).
🔥7
Как искать конфаундеры с помощью GLM. Часть 1.
Недавно передо мной стояла задача сравнить две группы пациентов по числу проведенных аферезов гемопоэтических стволовых клеток (ГСК) и по количеству заготовленных ГСК. На первом этапе все достаточно просто: можно использовать стандартные методы сравнения количественных показателей между двумя группами — например, тест Уэлча, Брауна–Муда или Манна–Уитни. Это позволяет оценить, есть ли различия между группами в целом. Это есть в приложении статИИстик.
Однако далее задача усложнилась. Нужно было понять, объясняются ли найденные различия только основной группирующей переменной или на результат также влияют другие факторы. Такие факторы называются конфаундерами — они могут искажать оценку эффекта, если их не учитывать в модели. В обсервационных исследованиях одной из главных методологических проблем является конфаундинг — ситуация, при которой связь между экспозицией и исходом искажается третьей переменной. Конфаундер связан как с воздействием, так и с исходом, и при его игнорировании оценка эффекта может быть смещена. Подробнее можно почитать здесь.
Для решения этой задачи применяются обобщенные линейные модели (GLM), которые позволяют анализировать влияние нескольких факторов одновременно. Подробнее здесь. Сложность заключалась в типе зависимых переменных. В одном случае это было число процедур (дискретные значения от 1 до 7), в другом — количество заготовленных клеток (непрерывная положительная величина). При этом все независимые переменные, включая основную группирующую и возможные конфаундеры, были бинарными.
Классическая линейная регрессия здесь не подходит, потому что она предполагает нормальное распределение зависимой переменной. Логистическая регрессия тоже не подходит, так как используется для бинарных исходов. Поэтому для анализа числа аферезов была выбрана регрессия Пуассона, которая предназначена для моделирования счетных данных. А для анализа количества заготовленных клеток использовалась гамма-регрессия, поскольку эта модель лучше подходит для непрерывных положительных показателей с асимметричным распределением.
В моделях обобщенной линейной регрессии, включая линейную, логистическую и пуассоновскую регрессию, один из наиболее распространенных практических подходов к выявлению конфаундеров основан на оценке изменения коэффициента регрессии при добавлении потенциальной переменной в модель.
Сначала строится «грубая» модель без конфаундеров. Затем добавляется предполагаемый конфаундер, и сравнивается коэффициент регрессии у основного переменной (группирующей). То есть мы усложняем модель и смотрим как ведут себя коэффциенты регрессии. Если после добавления новой переменной коэффициент заметно изменяется, это трактуется как наличие конфаундинга. Исторически в литературе закрепилось эмпирическое правило: если изменение превышает 10%, переменную считают конфаундером и оставляют в модели. На этом задачу можно считать выполненной. Кто не хочет на этом останавливаться, читайте часть 2.
Недавно передо мной стояла задача сравнить две группы пациентов по числу проведенных аферезов гемопоэтических стволовых клеток (ГСК) и по количеству заготовленных ГСК. На первом этапе все достаточно просто: можно использовать стандартные методы сравнения количественных показателей между двумя группами — например, тест Уэлча, Брауна–Муда или Манна–Уитни. Это позволяет оценить, есть ли различия между группами в целом. Это есть в приложении статИИстик.
Однако далее задача усложнилась. Нужно было понять, объясняются ли найденные различия только основной группирующей переменной или на результат также влияют другие факторы. Такие факторы называются конфаундерами — они могут искажать оценку эффекта, если их не учитывать в модели. В обсервационных исследованиях одной из главных методологических проблем является конфаундинг — ситуация, при которой связь между экспозицией и исходом искажается третьей переменной. Конфаундер связан как с воздействием, так и с исходом, и при его игнорировании оценка эффекта может быть смещена. Подробнее можно почитать здесь.
Для решения этой задачи применяются обобщенные линейные модели (GLM), которые позволяют анализировать влияние нескольких факторов одновременно. Подробнее здесь. Сложность заключалась в типе зависимых переменных. В одном случае это было число процедур (дискретные значения от 1 до 7), в другом — количество заготовленных клеток (непрерывная положительная величина). При этом все независимые переменные, включая основную группирующую и возможные конфаундеры, были бинарными.
Классическая линейная регрессия здесь не подходит, потому что она предполагает нормальное распределение зависимой переменной. Логистическая регрессия тоже не подходит, так как используется для бинарных исходов. Поэтому для анализа числа аферезов была выбрана регрессия Пуассона, которая предназначена для моделирования счетных данных. А для анализа количества заготовленных клеток использовалась гамма-регрессия, поскольку эта модель лучше подходит для непрерывных положительных показателей с асимметричным распределением.
В моделях обобщенной линейной регрессии, включая линейную, логистическую и пуассоновскую регрессию, один из наиболее распространенных практических подходов к выявлению конфаундеров основан на оценке изменения коэффициента регрессии при добавлении потенциальной переменной в модель.
Сначала строится «грубая» модель без конфаундеров. Затем добавляется предполагаемый конфаундер, и сравнивается коэффициент регрессии у основного переменной (группирующей). То есть мы усложняем модель и смотрим как ведут себя коэффциенты регрессии. Если после добавления новой переменной коэффициент заметно изменяется, это трактуется как наличие конфаундинга. Исторически в литературе закрепилось эмпирическое правило: если изменение превышает 10%, переменную считают конфаундером и оставляют в модели. На этом задачу можно считать выполненной. Кто не хочет на этом останавливаться, читайте часть 2.
🔥1
Как искать конфаундеры с помощью GLM. Часть 2.
Правило 10% является условным и не имеет универсального статистического обоснования. Величина возможного изменения коэффициента регрессии зависит от размера выборки, силы эффекта, дисперсии данных и структуры корреляций между переменными. В больших выборках даже небольшие изменения могут быть статистически значимыми, тогда как в малых выборках 10%может быть слишком строгим или, наоборот, слишком мягким критерием. Таким образом, фиксированный порог не учитывает характеристики конкретных данных и может приводить к неправильным решениям о включении или исключении переменных.
Более обоснованный подход заключается в том, чтобы вычислить индивидуальный порог для конкретной модели. Для этого в модель многократно добавляют случайную, не связанную с исходом переменную и оценивают, насколько изменяется коэффициент экспозиции исключительно из-за случайного шума. Методика простая, описана здесь. Мы берем исходную модель и многократно добавляем в нее искусственно созданную случайную переменную — просто набор случайных чисел той же длины, что и выборка. Эта переменная никак не связана ни с исходом, ни с основной переменной интереса и служит моделью "чистого шума". Каждый раз после ее добавления пересчитывается модель и фиксируется, насколько изменился коэффициент при основной переменной. Такую процедуру повторяют, например, 10 000 раз. В результате получается распределение случайных изменений коэффициента, и по его верхнему перцентилю определяется порог, выше которого изменение уже нельзя объяснить простым статистическим шумом.
Затем берут верхний перцентиль распределения этих изменений, например 95-й, и используют его как адаптивный порог. Такой метод позволяет оценить, какое изменение может возникнуть случайно, и отделить его от систематического влияния реального конфаундера. В отличие от фиксированного правила 10%, этот подход учитывает параметры модели и особенности выборки, обеспечивая статистически более корректную идентификацию конфаундирующих факторов.
При этом важно понимать, что любой метод, основанный на данных, включая критерий изменения коэффициента, не заменяет каузального мышления. Решение о включении переменной в модель должно учитывать предметные знания и причинную структуру, а не только числовой порог изменения коэффициента.
Правило 10% является условным и не имеет универсального статистического обоснования. Величина возможного изменения коэффициента регрессии зависит от размера выборки, силы эффекта, дисперсии данных и структуры корреляций между переменными. В больших выборках даже небольшие изменения могут быть статистически значимыми, тогда как в малых выборках 10%может быть слишком строгим или, наоборот, слишком мягким критерием. Таким образом, фиксированный порог не учитывает характеристики конкретных данных и может приводить к неправильным решениям о включении или исключении переменных.
Более обоснованный подход заключается в том, чтобы вычислить индивидуальный порог для конкретной модели. Для этого в модель многократно добавляют случайную, не связанную с исходом переменную и оценивают, насколько изменяется коэффициент экспозиции исключительно из-за случайного шума. Методика простая, описана здесь. Мы берем исходную модель и многократно добавляем в нее искусственно созданную случайную переменную — просто набор случайных чисел той же длины, что и выборка. Эта переменная никак не связана ни с исходом, ни с основной переменной интереса и служит моделью "чистого шума". Каждый раз после ее добавления пересчитывается модель и фиксируется, насколько изменился коэффициент при основной переменной. Такую процедуру повторяют, например, 10 000 раз. В результате получается распределение случайных изменений коэффициента, и по его верхнему перцентилю определяется порог, выше которого изменение уже нельзя объяснить простым статистическим шумом.
Затем берут верхний перцентиль распределения этих изменений, например 95-й, и используют его как адаптивный порог. Такой метод позволяет оценить, какое изменение может возникнуть случайно, и отделить его от систематического влияния реального конфаундера. В отличие от фиксированного правила 10%, этот подход учитывает параметры модели и особенности выборки, обеспечивая статистически более корректную идентификацию конфаундирующих факторов.
При этом важно понимать, что любой метод, основанный на данных, включая критерий изменения коэффициента, не заменяет каузального мышления. Решение о включении переменной в модель должно учитывать предметные знания и причинную структуру, а не только числовой порог изменения коэффициента.
PubMed Central (PMC)
Is a Cutoff of 10% Appropriate for the Change-in-Estimate Criterion of Confounder Identification?
When using the change-in-estimate criterion, a cutoff of 10% is commonly used to identify confounders. However, the appropriateness of this cutoff has never been evaluated. This study investigated cutoffs required under different conditions. Four ...
🔥1
🗣️ В приложении статИИстик добавлен новый анализ - линейная регрессия. Это статистический метод прогнозирования значения постоянной зависимой количественной переменной на основе одной или нескольких независимых переменных. Он оценивает взаимосвязь с помощью линейного уравнения. Линейное уравнение - прямая линия, которая моделирует связь между зависимой и независимой переменными, показывая, как изменения входящих характеристик влияют на целевое значение.
Подробне про допущения к методу можно почитать здесь. Еще больше информации в можете найти в "справочных материалах" на сайте.
Подробне про допущения к методу можно почитать здесь. Еще больше информации в можете найти в "справочных материалах" на сайте.
👍2
🗣️ В приложении статИИстик добавлен расчет стабильности прогностической модели при построении бинарной логистической регрессии. Стабильность прогностической модели - одна из важнейших характеристик, которую почти никогда не проверяют. Нестабильные прогностические модели не будут работать в реальных условиях и не должны рекомендоваться для практического использования. Главная причина нестабильности модели - маленькая обучающая выборка.
Подробнее вы можете прочитать в справочных материалах в приложении "Про нестабильность прогностических моделей или причем тут "мультиверс" .
Подробнее вы можете прочитать в справочных материалах в приложении "Про нестабильность прогностических моделей или причем тут "мультиверс" .
🗣️ В анализ бинарной логистической регрессии в приложении статИИстик добавлен расчет bias-скорректированной калибровки по методу профессора Фрэнка Харрелла
Подробнее:
В клинических прогностических моделях мы обычно оцениваем два ключевых свойства: дискриминацию и калибровку. Если дискриминация показывает, насколько хорошо модель разделяет пациентов с событием и без события (обычно через AUC), то калибровка отвечает на более клинически важный вопрос: насколько предсказанная вероятность соответствует реальному риску. Иными словами, если модель прогнозирует риск события 30%, то действительно ли примерно у 30% пациентов происходит событие?
Однако при оценке модели на той же выборке, на которой она была построена, возникает фундаментальная проблема — оптимистическое смещение (optimism). Модель частично "подстраивается" под случайные особенности обучающих данных. В результате её калибровка на обучающей выборке выглядит лучше, чем будет на новых пациентах. Такая калибровка называется apparent calibration (наблюдаемая калибровка). Она почти всегда несколько переоценивает качество модели.
Для решения этой проблемы Фрэнк Харрелл предложил метод bias-corrected calibration — калибровки с поправкой на смещение. Этот подход широко используется в современной медицинской статистике и лежит в основе рекомендаций TRIPOD и методологии построения регрессионных моделей. Его цель — оценить, как будет выглядеть калибровка модели на новых данных, не имея независимой внешней выборки.
Метод основан на бутстрэп процедуре. Из исходной выборки многократно формируются бутстрэп-подвыборки (обычно сотни повторений). На каждой из них модель строится заново. Затем оценивается её калибровка в двух ситуациях: на той же бутстрэп-выборке (где она обучалась) и на исходной выборке. Разница между этими двумя кривыми отражает оптимизм или ту часть качества модели, которая обусловлена переобучением. После усреднения этого оптимизма по всем бутстрэп-итерациям он вычитается из исходной (apparent) калибровки. В результате получается bias-corrected калибровочная кривая, более реалистичная оценка поведения модели на новых данных.
На графике обычно показывают несколько линий. Первая — идеальная калибровка (диагональ), где предсказанный риск полностью совпадает с наблюдаемым. Вторая — apparent calibration, построенная на обучающей выборке. Третья — bias-corrected calibration, скорректированная с помощью bootstrap-оценки оптимизма. Если эти две кривые сильно расходятся, это указывает на переобучение модели. Если же они почти совпадают, модель демонстрирует хорошую внутреннюю стабильность.
Важно понимать, что bias-corrected калибровка не заменяет внешнюю валидацию. Она лишь позволяет более корректно оценить модель на этапе разработки. Тем не менее этот подход считается одним из лучших методов внутренней проверки прогностических моделей, особенно когда доступна только одна небольшая выборка пациентов.
Таким образом, bias-corrected calibration по методу Харрелла — способ оценить реальную клиническую калибровку модели с поправкой на переобучение. Он позволяет увидеть, насколько оптимистична исходная калибровка и насколько вероятно, что модель сохранит свою точность при применении к новым пациентам. Именно поэтому этот метод сегодня является стандартом при разработке медицинских прогностических моделей.
Подробнее:
В клинических прогностических моделях мы обычно оцениваем два ключевых свойства: дискриминацию и калибровку. Если дискриминация показывает, насколько хорошо модель разделяет пациентов с событием и без события (обычно через AUC), то калибровка отвечает на более клинически важный вопрос: насколько предсказанная вероятность соответствует реальному риску. Иными словами, если модель прогнозирует риск события 30%, то действительно ли примерно у 30% пациентов происходит событие?
Однако при оценке модели на той же выборке, на которой она была построена, возникает фундаментальная проблема — оптимистическое смещение (optimism). Модель частично "подстраивается" под случайные особенности обучающих данных. В результате её калибровка на обучающей выборке выглядит лучше, чем будет на новых пациентах. Такая калибровка называется apparent calibration (наблюдаемая калибровка). Она почти всегда несколько переоценивает качество модели.
Для решения этой проблемы Фрэнк Харрелл предложил метод bias-corrected calibration — калибровки с поправкой на смещение. Этот подход широко используется в современной медицинской статистике и лежит в основе рекомендаций TRIPOD и методологии построения регрессионных моделей. Его цель — оценить, как будет выглядеть калибровка модели на новых данных, не имея независимой внешней выборки.
Метод основан на бутстрэп процедуре. Из исходной выборки многократно формируются бутстрэп-подвыборки (обычно сотни повторений). На каждой из них модель строится заново. Затем оценивается её калибровка в двух ситуациях: на той же бутстрэп-выборке (где она обучалась) и на исходной выборке. Разница между этими двумя кривыми отражает оптимизм или ту часть качества модели, которая обусловлена переобучением. После усреднения этого оптимизма по всем бутстрэп-итерациям он вычитается из исходной (apparent) калибровки. В результате получается bias-corrected калибровочная кривая, более реалистичная оценка поведения модели на новых данных.
На графике обычно показывают несколько линий. Первая — идеальная калибровка (диагональ), где предсказанный риск полностью совпадает с наблюдаемым. Вторая — apparent calibration, построенная на обучающей выборке. Третья — bias-corrected calibration, скорректированная с помощью bootstrap-оценки оптимизма. Если эти две кривые сильно расходятся, это указывает на переобучение модели. Если же они почти совпадают, модель демонстрирует хорошую внутреннюю стабильность.
Важно понимать, что bias-corrected калибровка не заменяет внешнюю валидацию. Она лишь позволяет более корректно оценить модель на этапе разработки. Тем не менее этот подход считается одним из лучших методов внутренней проверки прогностических моделей, особенно когда доступна только одна небольшая выборка пациентов.
Таким образом, bias-corrected calibration по методу Харрелла — способ оценить реальную клиническую калибровку модели с поправкой на переобучение. Он позволяет увидеть, насколько оптимистична исходная калибровка и насколько вероятно, что модель сохранит свою точность при применении к новым пациентам. Именно поэтому этот метод сегодня является стандартом при разработке медицинских прогностических моделей.
👍2
Сегодня день числа Пи (3 месяц, 14 число)
🔵 Число «Пи» представляет собой математическую константу и является отношением длины окружности к ее диаметру. В цифровом выражении «Пи» начинается как 3,141592... и имеет бесконечную математическую продолжительность.
🔵 Придумал этот неофициальный праздник физик из Сан-Франциско Ларри Шоу, который подметил, что в американской системе записи дат (месяц/число) день 14 марта — 3/14 — совпадает с первыми разрядами числа «Пи» = 3,14…
🔵 В этот день в учебных заведениях полагается читать лекции о загадочном числе «Пи» и «проводить мероприятия, направленные на повышение интереса к математике».
Каждый год 14 марта в 1:59:26 люди, интересующиеся математикой, празднуют «День числа Пи», пекут круглый торт, усаживаются за круглый стол и обсуждают число π, решают задачи и головоломки, связанные с «Пи».
🔵 В английском языке слова pie (пирог) и pi (число π) звучат одинаково, и поэтому приготовление и поедание пирогов стало веселой частью праздника.
🔵 В числе «Пи» можно найти самые различные последовательности чисел, например, свою дату рождения или номер сотового телефона. Это можно проверить на первых 200 миллионах знаках после запятой здесь: https://www.angio.net/pi/
🔵 В сериале «Звездный путь» один из персонажей побеждает злой компьютер, предложив ему вычислить последнюю цифру числа. Тот не выдержал перегрузки и сгорел.
🔵 Вниманием это число не обошли и поэты. Неизвестный написал: «Надо только постараться и запомнить все, как есть – три, четырнадцать, пятнадцать, девяносто два и шесть».
🔵 Число «Пи» представляет собой математическую константу и является отношением длины окружности к ее диаметру. В цифровом выражении «Пи» начинается как 3,141592... и имеет бесконечную математическую продолжительность.
🔵 Придумал этот неофициальный праздник физик из Сан-Франциско Ларри Шоу, который подметил, что в американской системе записи дат (месяц/число) день 14 марта — 3/14 — совпадает с первыми разрядами числа «Пи» = 3,14…
🔵 В этот день в учебных заведениях полагается читать лекции о загадочном числе «Пи» и «проводить мероприятия, направленные на повышение интереса к математике».
Каждый год 14 марта в 1:59:26 люди, интересующиеся математикой, празднуют «День числа Пи», пекут круглый торт, усаживаются за круглый стол и обсуждают число π, решают задачи и головоломки, связанные с «Пи».
🔵 В английском языке слова pie (пирог) и pi (число π) звучат одинаково, и поэтому приготовление и поедание пирогов стало веселой частью праздника.
🔵 В числе «Пи» можно найти самые различные последовательности чисел, например, свою дату рождения или номер сотового телефона. Это можно проверить на первых 200 миллионах знаках после запятой здесь: https://www.angio.net/pi/
🔵 В сериале «Звездный путь» один из персонажей побеждает злой компьютер, предложив ему вычислить последнюю цифру числа. Тот не выдержал перегрузки и сгорел.
🔵 Вниманием это число не обошли и поэты. Неизвестный написал: «Надо только постараться и запомнить все, как есть – три, четырнадцать, пятнадцать, девяносто два и шесть».
www.angio.net
The Pi-Search Page
Search for any string of digits in the first 200 million digits of Pi
👍2
Про математическое ожидание или почему нельзя выиграть у казино
Математическое ожидание — одно из ключевых понятий теории вероятности, которое отражает среднее значение случайной величины при очень большом числе повторений эксперимента. Прдстаьвте, что если эксперимент повторять много раз, то среднее значение наблюдаемых результатов будет стремиться именно к математическому ожиданию. Формально математическое ожидание рассчитывается как сумма всех возможных значений случайной величины, умноженных на вероятность каждого из них. Это понятие широко используется в статистике, экономике, медицине и анализе данных, поскольку позволяет оценивать ожидаемый результат в условиях неопределенности. Например, при моделировании эффективности лечения или анализе клинических исходов математическое ожидание помогает определить средний ожидаемый эффект терапии на основе вероятностей различных исходов.
Рассмотрим классический пример из казино — рулетку. В европейской рулетке на колесе 37 ячеек: 18 красных, 18 черных и одно зеро. Предположим, игрок ставит 1000 рублей на красное. Если выпадает красное (вероятность
18/37), игрок выигрывает и получает прибыль 1000 рублей. Если выпадает черное или зеро (вероятность 19/
37), он проигрывает свою ставку -1000 рублей. Математическое ожидание выигрыша можно рассчитать как сумму произведений результата на его вероятность: 1000×(18/37) - 1000 (19/37) ≈ −27 рублей. Это означает, что в среднем при каждой такой ставке игрок "теряет" около 27 рублей. Конечно, для отдельной ставки результат может быть как выигрышным, так и проигрышным, но при большом числе ставок средний результат будет стремиться к этому отрицательному значению. Именно поэтому казино в долгосрочной перспективе остается в выигрыше, ведь математическое ожидание для игрока отрицательное. По этой же логике можно анализировать любую азартную игру — математическое ожидание отрицательное, в долгой серии ставок игрок почти неизбежно окажется в проигрыше 🎲
Теперь рассмотрим простой медицинский пример. Предположим, что новый препарат для лечения заболевания приводит к полному выздоровлению у 60% пациентов, частичному улучшению у 30%, а у 10% пациентов эффекта не наблюдается. Если условно оценить исходы баллами: 2 — полное выздоровление, 1 — частичное улучшение и 0 — отсутствие эффекта, то математическое ожидание результата лечения можно рассчитать как сумму произведений каждого исхода на его вероятность: 2×0,6+1×0,3+0×0,1=1,5. Полученное значение 1,5 отражает средний ожидаемый эффект терапии для одного пациента. Это не означает, что конкретный пациент получит именно такой результат, но при большом числе наблюдений средний эффект лечения будет стремиться к этому значению. Такой подход используется при анализе эффективности терапии, моделировании клинических исходов и в фармакоэкономических оценках.
Математическое ожидание — одно из ключевых понятий теории вероятности, которое отражает среднее значение случайной величины при очень большом числе повторений эксперимента. Прдстаьвте, что если эксперимент повторять много раз, то среднее значение наблюдаемых результатов будет стремиться именно к математическому ожиданию. Формально математическое ожидание рассчитывается как сумма всех возможных значений случайной величины, умноженных на вероятность каждого из них. Это понятие широко используется в статистике, экономике, медицине и анализе данных, поскольку позволяет оценивать ожидаемый результат в условиях неопределенности. Например, при моделировании эффективности лечения или анализе клинических исходов математическое ожидание помогает определить средний ожидаемый эффект терапии на основе вероятностей различных исходов.
Рассмотрим классический пример из казино — рулетку. В европейской рулетке на колесе 37 ячеек: 18 красных, 18 черных и одно зеро. Предположим, игрок ставит 1000 рублей на красное. Если выпадает красное (вероятность
18/37), игрок выигрывает и получает прибыль 1000 рублей. Если выпадает черное или зеро (вероятность 19/
37), он проигрывает свою ставку -1000 рублей. Математическое ожидание выигрыша можно рассчитать как сумму произведений результата на его вероятность: 1000×(18/37) - 1000 (19/37) ≈ −27 рублей. Это означает, что в среднем при каждой такой ставке игрок "теряет" около 27 рублей. Конечно, для отдельной ставки результат может быть как выигрышным, так и проигрышным, но при большом числе ставок средний результат будет стремиться к этому отрицательному значению. Именно поэтому казино в долгосрочной перспективе остается в выигрыше, ведь математическое ожидание для игрока отрицательное. По этой же логике можно анализировать любую азартную игру — математическое ожидание отрицательное, в долгой серии ставок игрок почти неизбежно окажется в проигрыше 🎲
Теперь рассмотрим простой медицинский пример. Предположим, что новый препарат для лечения заболевания приводит к полному выздоровлению у 60% пациентов, частичному улучшению у 30%, а у 10% пациентов эффекта не наблюдается. Если условно оценить исходы баллами: 2 — полное выздоровление, 1 — частичное улучшение и 0 — отсутствие эффекта, то математическое ожидание результата лечения можно рассчитать как сумму произведений каждого исхода на его вероятность: 2×0,6+1×0,3+0×0,1=1,5. Полученное значение 1,5 отражает средний ожидаемый эффект терапии для одного пациента. Это не означает, что конкретный пациент получит именно такой результат, но при большом числе наблюдений средний эффект лечения будет стремиться к этому значению. Такой подход используется при анализе эффективности терапии, моделировании клинических исходов и в фармакоэкономических оценках.
👍1
Байесовские методы в клинических исследованиях наконец получили четкую регуляторную поддержку. В 2026 году FDA выпустило долгожданный draft guidance, фактически закрепив их как полноценную альтернативу традиционному частотному анализу. Это важный сигнал для клиницистов и исследователей — подход, который десятилетиями использовался ограниченно, теперь официально признан применимым для оценки эффективности и внедрения лекарств.
Ключевое различие между подходами — в самом вопросе, который мы задаем данным. Частотная статистика отвечает косвенно: p-уровень показывает, насколько маловероятны наблюдаемые данные, если лечение не работает. Байесовский подход отвечает прямо: какова вероятность того, что лечение эффективно. Это делает результаты более клинически интерпретируемыми. Например, вместо формулировки "p<0,05" врач может получить вывод "вероятность общей пользы терапии составляет 86%, вероятность значимого эффекта (выше заданного клинического порога) — 44%".
Суть метода — в объединении накопленных знаний и новых данных. В байесовском анализе используется prior (априорное распределение), отражающее предыдущие исследования или экспертные ожидания, и текущие данные исследования. Их комбинация дает posterior — обновленную оценку эффекта лечения. Итоговая интерпретация зависит от выбранного prior, что влияет на итоговую вероятность итогоговой пользы.
Практическая ценность подхода особенно заметна в дизайне исследований. Во-первых, можно использовать результаты предыдущих исследований или реальную клиническую практику (RWD), снижая необходимый размер выборки. Например, результаты фазы II можно использовтаь как prior для фазы III исследования. Хотя выбор prior часто критикуется как субъективный, его явное задание делает допущения прозрачными — в отличие от p-хакинга в частотной статистике. Во-вторых, байесовские исследования по своей природе адаптивны. По мере накопления данных posterior обновляется. Это означает, что исследование может раньше выявить неэффективность или, наоборот, быстрее подтвердить пользу терапии.
Мы переходим от контроля ошибки I рода к оценке вероятности эффективности. Решения могут приниматься на основе posterior probability, что ближе к клинической логике: не "есть ли статистическая значимость", а "насколько вероятна клиническая польза". Эти подходы уже меняют практику, особенно в онкологии. Это делает исследования более эффективными и этичными, поскольку больше пациентов получают потенциально эффективное лечение по мере накопления данных
При этом важно понимать ограничения. Байесовский подход не является универсальным решением. Он требует тщательного обоснования prior, проведения симуляций для оценки надежности дизайна и может иногда приводить к необходимости увеличения выборки для корректного учета неопределенности. Также остается потребность в обучении специалистов и развитии удобных инструментов анализа.
В целом, новое руководство FDA отражает фундаментальный сдвиг того, что клинические исследования постепенно переходят от жестких, фиксированных схем к более гибким, адаптивным и клинически ориентированным методам анализа. Для врачей это означает, что в ближайшие годы результаты исследований будут все чаще формулироваться не через p-уровень значимости, а через вероятности — и станут ближе к реальному принятию решений в клинической практике.
Ключевое различие между подходами — в самом вопросе, который мы задаем данным. Частотная статистика отвечает косвенно: p-уровень показывает, насколько маловероятны наблюдаемые данные, если лечение не работает. Байесовский подход отвечает прямо: какова вероятность того, что лечение эффективно. Это делает результаты более клинически интерпретируемыми. Например, вместо формулировки "p<0,05" врач может получить вывод "вероятность общей пользы терапии составляет 86%, вероятность значимого эффекта (выше заданного клинического порога) — 44%".
Суть метода — в объединении накопленных знаний и новых данных. В байесовском анализе используется prior (априорное распределение), отражающее предыдущие исследования или экспертные ожидания, и текущие данные исследования. Их комбинация дает posterior — обновленную оценку эффекта лечения. Итоговая интерпретация зависит от выбранного prior, что влияет на итоговую вероятность итогоговой пользы.
Практическая ценность подхода особенно заметна в дизайне исследований. Во-первых, можно использовать результаты предыдущих исследований или реальную клиническую практику (RWD), снижая необходимый размер выборки. Например, результаты фазы II можно использовтаь как prior для фазы III исследования. Хотя выбор prior часто критикуется как субъективный, его явное задание делает допущения прозрачными — в отличие от p-хакинга в частотной статистике. Во-вторых, байесовские исследования по своей природе адаптивны. По мере накопления данных posterior обновляется. Это означает, что исследование может раньше выявить неэффективность или, наоборот, быстрее подтвердить пользу терапии.
Мы переходим от контроля ошибки I рода к оценке вероятности эффективности. Решения могут приниматься на основе posterior probability, что ближе к клинической логике: не "есть ли статистическая значимость", а "насколько вероятна клиническая польза". Эти подходы уже меняют практику, особенно в онкологии. Это делает исследования более эффективными и этичными, поскольку больше пациентов получают потенциально эффективное лечение по мере накопления данных
При этом важно понимать ограничения. Байесовский подход не является универсальным решением. Он требует тщательного обоснования prior, проведения симуляций для оценки надежности дизайна и может иногда приводить к необходимости увеличения выборки для корректного учета неопределенности. Также остается потребность в обучении специалистов и развитии удобных инструментов анализа.
В целом, новое руководство FDA отражает фундаментальный сдвиг того, что клинические исследования постепенно переходят от жестких, фиксированных схем к более гибким, адаптивным и клинически ориентированным методам анализа. Для врачей это означает, что в ближайшие годы результаты исследований будут все чаще формулироваться не через p-уровень значимости, а через вероятности — и станут ближе к реальному принятию решений в клинической практике.
🔥3