статИИстик
183 subscribers
75 photos
3 videos
162 links
О медицинской статистике и не только
Личные сообщения @glivec
Download Telegram
Формула среднего процента

Средний процент - определение среднего значения двух или более процентов от целого.
💁‍♂️ Формула: [(процент 1 + процент 2 + процент n) / (выборка 1 + выборка 2 + выборка n)] * 100%
Если размеры выборок совпадают, то средний процент равен простому среднему от всех процентов. Например, у нас 3 выборки по 100 пациентов. Из них ответили на лечение 40, 60, 80% пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение можно рассчитать по упрощенной формуле (40%+60%+80%) / 3 = 60%.
Но если размеры выборок не совпадают, тогда используется универсальная формула выше . Например, у нас 3 выборки по 100, 150 и 200 пациентов. Из них ответили на лечение 40% (n=40), 60% (n=90), 80% (n=160) пациентов в каждой выборке соответственно. Тогда средний процент ответа на лечение равен (40+90+160)/(100+150+200) * 100 = 64.4%
Новая рубрика. Полезные формулы в #excel
Разность дат в днях, месяцах, годах (полезно, когда готовите данные для анализа выживаемости)

=РАЗНДАТ(начальная_дата; конечная_дата; способ_измерения), способ измерения: "d" - разница в днях, "m" - разница в полных месяцах, "y" - разница в полных годах

Альтернативные решения:
=(ГОД(конечная_дата)-ГОД(начальная_дата))*12+МЕСЯЦ(конечная_дата)-МЕСЯЦ(начальная_дата) - разница в полных месяцах

=(ГОД(конечная_дата)-ГОД(начальная_дата)) - разница в полных годах
Подробнее здесь
👍1
Что делать, если у вас дефицит данных для анализа:

Собрать больше новых данных (очевидно, но не всегда реально)
Объединиться с другими исследователями (многоцентровые исследования)
Использовать свои результаты совместно с уже опубликованными (мета-анализ)
Снизить размерность данных (в рамках исследований с многофакторным анализом)
Поменять задачи и методы исследования (упростить исследование)
Использовать данные из открытых источников или маркетплейсов данных
Синтезировать искусственные данные на основе имеющихся реальных
👍2
Про дисбаланс данных

Несбалансированность данных - проблема классификации или прогноза исхода, когда прогнозируемый класс (исход) не представлен в одинаковой пропорции с другими классами. Например, вы хотите прогнозировать некое событие, а его частота в выборке составляет только 1%. В целом проблемы могут уже начаться, если дисбаланс 1:4 или выражен сильнее.

Что делать в таком случае:
Ничего не делать и посмотреть получится ли у вас хорошая модель. При определенных обстоятельствах дисбаланс может не повлиять на качество результата
Собрать больше данных по несбалансированному классу
Объединить слабо представленный класс с другими (если есть) в новый (общий) для его последующего прогнозирования
Если у вас много данных, уровняйте классы путем создания новой случайной выборки в нужном вам соотношении
Методы сэмплирования (SMOTE, ROSE ...) - искусственное дублирование наблюдений из редкого класса или удаление части наблюдений из популярного класса
Использование алгоритмов, малочувствительных к дисбалансу. Например, деревья решений
Синтез искусственных данных на основе имеющихся реальных
👍1
Я хочу сделать прогностическую модель. Какие знания мне нужны? Вот эти:

1. Расчет минимального размера выборки (данных много не бывает!)
2. Селекция предикторов (до-, во время-, после построения модели)
3. Выбор алгоритма модели и допущения к методу (их очень много, часто используемый - логистическая регрессия)
4. Внутренняя валидация модели (бутстрэп, кросс-валидация)
5. Калибровка модели (калибровочная кривая)
6. Проверка стабильности модели (график нестабильности)
7. Внешняя валидация модели

Дополнительно:
8. Презентация (визуализация) модели для пользователя
9. Кривая принятия решений (Decision curve)
10. Анализ влияния (Impact analysis)
🔥2
О двух больших проблемах прогностических моделей

Bias (смещение, предвзятость) — систематическая ошибка из-за ошибочного моделирования. Смещение описывает, насколько хорошо модель соответствует данным и закономерностям в них. Смещение модели приводит к тому, что итоговый алгоритм содержит в себе неверные связи между входными данными (признаками) и целевыми выходными данными (прогнозами). Модель с высоким риском bias будет иметь высокий риск неверного прогноза при практическом применении, другими словами, не будет эффективной.
Причины смещения:
- Нарушение методологии построения моделей на любом из этапов, начиная с недостаточного размера выборки, заканчивая отсутствием строгой валидации
- Слишком простая модель, которая не отражает тенденции, присутствующие в наборе данных
- Слишком сложная, переобученная модель

Дисперсия (нестабильность) — насколько сильно меняется модель, когда вы обучаете ее, используя разные части тренировочного набора данных. Модель с высокой дисперсией будет иметь широкий диапазон прогноза (доверительный интервал), что также сделает ее неэффективной при практическом применении.
Главная причина нестабильности модели - маленький размер обучающей выборки.
🔥1
8 алгоритмов, с которых следует начинать изучение машинного обучения. Все они используются в создании прогностических моделей.
🔥1
#среднийуровень
Однофакторный анализ - не лучший вариант выбора ковариат перед многофакторным анализом (для создания прогностической модели)!

Однофакторный анализ перед многофакторным или метод Хосмера-Лемешоу подразумевает поочередную проверку всех факторов и выбор значимых из них для включения в многофакторную модель. При этом выбор происходит на основании порога значимости для каждой из ковариат, который может быть 0.05, 0.1, 0.2, 0.25, другими словами почти любой. Порог 0.05 приведет к отсеиванию полезных предикторов, но даже порог 0.2-0.25 не гарантирует, что этого не произойдет. Прогностическая модель не обязательно должна включать в себя только значимые ковариаты, скорее наоборот! Еще большее увеличение порога лишает смысла данный подход, так как делает его крайне неспецифичным и неизбирательным. Данный метод, который относится к методам селекции предикторов до этапа моделирования, с большой вероятностью приведет к созданию модели с неоптимальной (не самой эффективной) комбинацией предикторов. Кроме того, при большом числе потенциальных предикторов, такой анализ просто долго делать.
Правильным решением является выбор предикторов в процессе создания модели. Другими словами, в начальную (родительскую) модель включаются все факторы, которые удалось описать. В процессе моделирования модель упрощается путем селекции предикторов, повышающих ее прогностическую эффективность и избавления от неэффективных ковариат.
К таким методам со своими плюсами и минусами относятся: пошаговая регрессия (например, с использованием информационного критерия Акаике - AIC), тест отношения правдоподобия (золотой стандарт), методы регуляризации (регрессия LASSO, гребневая регрессия).
👍1
🧐 Домашнее задание по математике в китайской начальной школе. Какова высота стола?
#среднийуровень
Про тест отношения правдоподобия


Правдоподобие (Likelihood) - вероятность гипотезы (их число может быть неограниченным).
Probability – вероятность результата от 0 до 1 (подчиняется законам теории вероятности).
Отношение правдоподобия (фактор Байеса, Likelihood Ratio, LR) – решение о том, какая из гипотез более правдоподобна в эксперименте.

Рассмотрим на примере. Представим, что наша модель прогноза (или диагностический тест) заболевания имеет чувствительность 0.9 и специфичность 0.85 (тогда частота ложноположительных результатов = 1-0.85=0.15). Модель (тест) будет прогнозировать заболевание у пациента, имеющего данное заболевание, в 0.9/0.15 = 6 раз чаще, чем просто случайно. Это и есть LR+ для положительного результата модели (теста).
Другими словами, если до применения модели (теста), вероятность заболевания у пациента расценивалась как 50/50 (50%) или шансы 1:1 (гипотеза А), то после получения результатов о наличии заболевания шансы увеличились до 1*LR=6, а вероятность заболевания составила 6/(1+6) = 86% (гипотеза B). Вероятность гипотезы, что пациент болен увеличилась на 86-50=36% по сравнению с вероятностью гипотезы, что он болен с вероятностью 50%. Или еще раз другими словами отношение для гипотез B и A = 6:1.

Формулы для расчета:
Существует четыре возможных группы больных:
группа a - больные, имеющие положительный результат теста;
группа b - здоровые, имеющие положительный результат теста;
группа c - больные, имеющие отрицательный результат теста;
группа d - здоровые, имеющие отрицательный результат теста;

LR+ = чувствительность/(1-специфичность) = (a/(a+c))/(b/(b+d))
LR- = (1-чувствительность)/специфичность = (c/(a+c))/(d/(b+d))
Дотестовые шансы = дотестовая вероятность/(1-дотестовая вероятность)
Послетестовые шансы = дотестовые шансы * LR+
Послетестовая вероятность = послетестовые шансы/(послетестовые шансы +1)

P.S. Сразу может быть сложно, нужно потренироваться на примерах
👍3
«Одно точное измерение стоит тысячи экспертных мнений», Грэйс Хоппер, одна из пионеров программирования, математик, контр-адмирал флота США
💯1
Про виды показателей выживаемости в медицине

Цель исследования выживаемости: оценка вероятности (частоты) исхода (смерть / рецидив / событие) во времени
Статистический метод: кривая Каплана-Мейера
Данные: время наблюдения для каждого пациента (дни / месяцы / годы) + исход (1 - исход случился, наблюдение
завершено / 0 - исход не случился, наблюдение цензурировано)

Основные показатели выживаемости:
Общая выживаемость (Overall survival, OS) - время от даты постановки диагноза до даты смерти по любой причине или цензурирования наблюдения.
Выживаемость без прогрессии (Progressive-free survival, PFS) - время от даты рандомизации или начала лечения до даты
прогрессии или смерти по любым причинам или цензурирования наблюдения.
Безрецидивная выживаемость (Disease-free survival, DFS) - время от даты ремиссии или даты окончания лечения до даты рецидива или смерти по любым причинам или цензурирования наблюдения.
Бессобытийная выживаемость (Event-free survival, EFS) - время от даты рандомизации или начала лечения до даты "негативного" события (смерть / прогрессия / тяжелая токсичность или др.) или цензурирования наблюдения.

Дополнительные:
Выживаемость, связанная с заболеванием (Disease-specific survival, DSS) - время от даты постановки диагноза до даты смерти по причине данного заболевания или цензурирования наблюдения.
Выживаемость, свободная от неудач лечения (Failure-free survival, FFS) - время от даты рандомизации или начала лечения до даты "неудачи лечения" (прогрессия / непереносимость терапии).
👍2
Как расчитать референсный интервал (РИ) для лабораторного параметра

Вариант 1. Нормальное распределение. При нормальном или близко к нормальному распределению без выбросов за РИ можно взять интервал в 90%, 95% или 99%. 95% интервал (~2 стандартных отклонения) является наиболее частым и предпочтительным.

Вариант 2. Перцентильный метод. При ненормальном распределении за РИ может быть взят диапазон значений, например, между 2.5 (5) и 97.5 (95) перцентилями. Рекомендуемый размер выборки при этом должен быть не менее 120 значений.

Вариант 3. Бутстрэппинг. Применяется при небольшом размере выборки (<120). Выполняется генерация случайных выборок с последующим использованием того же перцентильного метода.

Перед расчетом РИ "плохие" (асиметричные) данные могут быть преобразованы, например, через логарифмическое преобразование или преобразование Бокса-Кокса.
🤖 Возможно кто-то уже слышал, что компания OpenAI предоставила доступ к своему искусственному интеллекту ChatGPT, который может общаться практически на любые темы. Не постеснялся спросить его про один животрепещущий вопрос. Ответ, конечно, не самый профессиональный, но мысли в правильном направлении 😉.
Про два типа прогностических моделей

Модели-классификаторы. Относят объект (пациента) в одну из групп риска, например, низкий или высокий. Решение всегда принимается на основании порогового значения вероятности (или псевдовероятности), по умолчанию равному 0.5. К ним же относятся системы, построенные на подсчете баллов.
Плюсы:
- удобство в использовании для принятия решений (хотя это грубый подход)

Минусы:
- это не персональный, а коллективный прогноз для данной группы, в которую могут попасть пациенты с сильно различающимся риском
- поиск оптимального порога (cutt-off) - неблагодарное занятие, потому что порог - величина нестабильная, которая меняется вместе с данными, на которых он рассчитан (порог лучше выбирать эмпирически в контексте клинической ситуации и принятия решения, 0.5, 0.8 и т.д.)

Методы оценки качества модели:
- матрица ошибок (точность, чувствительность, специфичность, PPV, NPV, F-мера и др.)

Модели-регрессоры. Рассчитывают персональную истинную вероятность риска прогнозируемого события.
Плюсы:
- персональный прогноз (риск) в %
- расчет истинной или приближенной к истинной апостериорной вероятности (риска) исхода, которая подчиняется закономерностям теории вероятности
- позволяет напрямую принять решение в контексте клинической ситуации и рассчитанной вероятности исхода для конкретного пациента

Минусы:
- требуется анализ и учет калибровки модели
- труднее разработать

Методы оценки качества модели:
- C-статистика (AUC-ROC)
- Калибровочная кривая

P.S. Все модели требуют внутренней и внешней валидации, в идеале - проверки стабильности.
👍1
Почему вам не нужен однофакторный анализ

🙅‍♂️ Однофакторный регрессионный анализ - моделирование ситуации, когда отсутствуют (равны 0) любые другие факторы, влияющие на исход. Это абсолютно искусственная ситуация, не имеющая ничего общего с действительностью. Очевидно, что пациенты всегда имеют другие факторы, которые отличают их друг от друга и могут влиять на изучаемый исход. Например, у всех людей есть пол и возраст. В однофакторном анализе ни то, ни другое не учитывается.

🙅‍♂️ Однофакторный анализ, как этап выбора предикторов, также бесполезен. Его значение не в том, чтобы найти значимые независимые ковариаты (это задача многофакторного анализа), а в том, чтобы уменьшить их число в условиях дефицита данных. При этом приходиться ориентироваться на результаты нереалистичной модели. Кроме того, p-уровень значимости, по которому принимается решение, далеко не идеальный, но единственный в данном случае критерий выбора. Если дефицита данных нет, то такой анализ вам в приниципе не нужен.
👍1
Про p-хакинг

p-хакинг - желание всеми правдами и неправдами получить значение уровня p-значимости <0.05. p-хакинг - побочный эффект самого существования уровня p-значимости, стереотипная и неверная интерпретация которого сводится к различиям между данными, которые обязательно должны быть. Но на самом деле, занимаясь p-хакингом, "исследователь" не доказывает или опровергает научную гипотезу, а лишь пытается получить ложноположительный результат, что является катастрофой для любого научного вывода.

Признаки p-хакинга:
1. Прекращение сбора данных при получении p<0.05
2. Проведение множества измерений, но публикация только тех результатов, у которых p<0.05
3. Использование ковариат, у которых p<0.05
4. Исключение данных, которые мешают достичь p<0.05
5. Трансформация данных с целью получить p<0.05
👍1💯1
Цена дихотомии непрерывных (количественных) переменных

Категоризация (дихотомия) непрерывных переменных, чаще на 2 группы, - популярная тема, если не сказать повальная мода при работе с данными, в частности с медицинскими. Аргументом в пользу такого подхода является то, что это значительно упрощает статистический анализ и интерпретацию и представление результатов. Например, бинарное разделение количественной переменной позволяет сравнить группы с помощью t-теста или Хи2.

На самом деле вы получаете кучу проблем 💩:
1. Большая часть информации теряется, поэтому статистическая мощность для обнаружения связи между переменной и исходом пациента снижается. Дихотомия переменной по медиане снижает мощность на ту же величину, что и отбрасывание трети данных, что нецелесообразно, когда данных и так обычно мало.
2. Может, наоброт, повысится риск ложноположительного результата (ошибка I рода)
3. Недооценка степени различий между группами. Пациенты, близкие к точке отсечения, но находящиеся по разные стороны от нее, характеризуются как очень разные, а на самом деле они очень похожи!
4. Дихотомия нарушает любую линейную взаимосвязь между результатами, а при ее наличии гораздо эффективнее воспользоваться той же линейной регрессией.

Виды порогов (точек отсечения), которые используются при дихотомии:
1. Общепризнанные пороги, например, ИМТ 25 кг/м2 (на самом деле никаких математических оснований для данного порога никогда не существовало)
2. Точка отсечения из прошлого похожего исследования (скорее всего она неверна, поэтому ошибетесь и вы)
3. Выборочная медиана (только вот в разных выборках медианы будут разные)
4. Использование так называемой «оптимальной» точки отсечения (обычно дающей минимальное значение p-значимости), расчитанной разными способами (например, ROC-анализом). Очень высокий риск ложноположительного результата! Никогда не используйте данную стратегию!

Вместо категоризации непрерывных переменных сохраняйте их непрерывными - это лучшая стратегия!
👍6
Для экстраполяции результатов выборочной совокупности на генеральную (популяцию) мы должны оперировать интервалами неопределенности, в которые превращаются все частоты, медианы, средние, кривые выживаемости и т.д. Эти интервалы тем больше, чем меньше выборочная совокупность. В статистике, использующей частотный подход (классическая статистика) и байесовский подход (байесовская статистика) к теории вероятности, применяются на первый взгляд схожие, но разные интервалы неопределенности.

Частотный подоход. Вероятность интерпретируется как утверждение о том, как часто должно происходить событие при многократных попытках.

95% Confidence interval (доверительный интервал) - если мы повторим эксперимент много раз, 95% значений результата будут находиться в данном интервале.

p-уровень значимости говорит нам о вероятности повторения таких же или более экстремальных результатов эксперимента при гипотетической верности нулевой гипотезы.

Все это не очень интуитивно понятно, тем не менее этим пользуется большинство исследователей.

Байесовский подход интерпретирует вероятность как результат логических рассуждений о природе вещей и явлений. Такой подход становится весомее и более значимым при описании сложных моделей и явлений, нашей жизни в конце концов. Он позволяет не просто делать отдельные прогнозы, но и давать степень уверенности в прогнозах, находящихся в широком наборе вариантов. Байесовская статистика сообщает апостериорную вероятность события или явления в прямом понимании слова "вероятность". Это интуитивно более понятные вещи, тем не менее они менее распространены среди исследователей.

95% Credible interval (интервал достоверности, уверенности) - 95% вероятность, что результат в генеральной совокупности (популяции) будет находиться в данном интервале.
👍2
Как одним движением ножа разделить эти два яблока поровну на троих?
🤔1