статИИстик
183 subscribers
75 photos
3 videos
162 links
О медицинской статистике и не только
Личные сообщения @glivec
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Парадокс Симпсона - статистический феномен, когда связь между двумя переменными может полностью измениться, если учесть третью переменную. При отсутствии тщательного анализа это часто приводит к противоречивым выводам.
Например, в наборе данных вы можете увидеть положительную тенденцию между переменными X и Y. Однако если разделить данные на подгруппы на основе третьей переменной, Z, тенденция может измениться или исчезнуть. Всегда учитывайте потенциальные скрытые переменные, которые могут повлиять на результаты. Будьте осторожны с агрегированными данными; иногда истинные знания кроются в подгруппах. Используйте визуализацию, чтобы лучше понять характер взаимосвязей в ваших данных. Подробнее здесь.
👍1🔥1
Про бинарную (биномиальную) логистическую регрессиию

Бинарная логистическая регрессия (БЛР) - статистический метод прогнозирования бинарных исходов. Она оценивает вероятность того, что наблюдение принадлежит к определенной категории (1/0). В основе лежит сигмоидная функция (S-образная кривая на картинке) для получения вероятностей, по порогу которых (обычно 0.5) определяется нужный класс. БЛР применяется для решения задач бинарной классификации, для вычисления вероятностей, когда нужны интерпретируемые результаты и когда связи между признаками и результатом в основном линейны.

Плюсы:
- Легко понять и реализовать
- Быстрое обучение
- Предоставляет оценки вероятности
- По коэффициентам БЛР можно определить важность признаков

Минусы:
- Предполагает линейные взаимосвязи между логитом исхода и ковариатами
- Может не справляться со сложными паттернами
- Чувствительна к выбросам
- Может не справляться с несбалансированными данными
👍3🔥1
Про линейную регрессию

Линейная регрессия - статистический метод прогнозирования значения постоянной зависимой количественной переменной на основе одной или нескольких независимых переменных. Он оценивает взаимосвязь с помощью линейного уравнения. Линейное уравнение - прямая линия, которая моделирует связь между зависимой и независимой переменными, показывая, как изменения входящих характеристик влияют на целевое значение.

Когда использовать:
- Прогнозирование непрерывных (количественных) результатов
- Когда связь между признаками и результатом линейна
- Когда вам нужны интерпретируемые результаты
- Когда у вас есть простые или умеренно сложные данные

Плюсы:
- Легко понять и реализовать
- Быстрое обучение
- По коэффициентам уравнения линейной регрессии можно определить важность признаков

Минусы:
- Предполагает линейные взаимосвязи между исходом и ковариатами
- Может не справляться со сложными закономерностями
- Чувствительна к выбросам
- Может иметь проблемы с мультиколлинеарностью
🔥2
Еще раз, важно помнить, что корреляция не означает причинно-следственную связь. Если две переменные коррелируют между собой, это не значит, что одна из них является причиной другой. Корреляция просто указывает на связь, но для установления причинно-следственной связи необходимы дополнительные доказательства. На них не следует полагаться при составлении прогнозов или формулировании окончательных выводов. При интерпретации корреляций необходимо учитывать: контекст, характер переменных, потенциальные факторы, сбивающие с толку, чтобы избежать ошибочных выводов. Корреляции могут быть рассчитаны с помощью различных методов, таких как: корреляция Пирсона, корреляция Спирмена и Кендалла.
🔥6
Про фиктивные (dummy) переменные

Фиктивные переменные - бинарные (0/1) переменные, которые используются для представления категориальных данных в регрессионном анализе и других статистических моделях.
Например, у нас есть 4 стадии заболевания и наша переменная "стадия" имеет 4 категории (k): стадия 1, стадия 2, стадия 3 и стадия 4. Для переменной с k категориями создается k-1 фиктивных переменных, чтобы избежать проблемы мультиколлинеарности. Значение каждой фиктивной переменной показывает разницу в эффекте по сравнению с базовой категорией. В нашем примере, если за базовую категорию принять стадию 1, то вместо переменной "стадия" новыми dummy переменными станут "стадия 2 (1/0)", "стадия 3(1/0)" и "стадия 4(1/0)" (3 новых столбика вместо 1). Фиктивные переменные взаимоисключают друг друга. Если значения всех фиктивных переменных у одного наблюдения (пациента) равны 0, то это означает, что пациент принадлежит к базовой категории, в нашем примере это "стадия 1". В противном случае, одна из фиктивных переменных принимает значение 1, остальные - 0.

Выбор базовой категории при создании фиктивных переменных действительно важен и может существенно повлиять на интерпретацию результатов. Вот несколько рекомендаций по выбору базовой категории в медицинских исследованиях:

Контрольная группа. Если в исследовании есть контрольная группа (например, пациенты, получающие плацебо или стандартное лечение), логично выбрать ее в качестве базовой категории. Это позволит легко интерпретировать эффекты других групп относительно контроля.
Наиболее распространенная категория. Выбор наиболее часто встречающейся категории в качестве базовой может улучшить статистическую мощность и стабильность оценок.
Наименьший риск. В исследованиях, связанных с оценкой риска, можно выбрать категорию с наименьшим ожидаемым риском в качестве базовой. Это позволит интерпретировать коэффициенты как увеличение риска относительно базового уровня.
Естественное "нулевое" состояние. Например, при оценке влияния курения можно выбрать "некурящих" в качестве базовой категории.
Клиническая значимость. Выбирайте категорию, которая имеет наибольший клинический смысл в контексте вашего исследования.
Традиция. Если в вашей области есть устоявшаяся практика выбора определенной категории в качестве базовой, следование ей облегчит сравнение результатов с другими исследованиями.
Избегайте крайних значений. Старайтесь не выбирать слишком редкие или экстремальные категории в качестве базовых, так как это может привести к нестабильным оценкам.
Учет пропущенных данных. Если в одной из категорий много пропущенных значений, возможно, стоит выбрать ее в качестве базовой, чтобы минимизировать влияние этих пропусков на анализ.

Важно помнить, что выбор базовой категории не влияет на общую пригодность модели, но может существенно повлиять на интерпретацию коэффициентов модели. Поэтому рекомендуется обосновать свой выбор в методологии исследования и учитывать его при интерпретации результатов.
Про разведочный (эксплораторный) анализ данных

Эксплораторный анализ данных (EDA) - процесс исследования данных с целью выявления закономерностей, аномалий, взаимосвязей или тенденций с помощью статистических и визуальных методов. Это необходимо для понимания базовой структуры и характеристик данных, прежде чем применять более формальные статистические методы или методы машинного обучения.
EDA должен всегда выполняться на самом первом этапе статистического анализа и может включать в себя:

Оценка типов данных (числовые, категориальные, порядковые) для их правильной обработки при последующем анализе.

Оценка качества данных для выявления ошибок и несоответствий, которые могут потребовать исправления.

Оценка распределения данных (например, нормальное, асимметричное распределение) с помощью гистограмм, графиков и сводных статистик помогает интуитивно понять общую тенденцию, изменчивость и сложные взаимосвязи в данных.

Оценка пропущенных значений: выявление и устранение недостающих данных крайне важно, поскольку это может существенно повлиять на результаты анализа. Методы включают в себя импутацию (вменение), удаление отсутствующих данных, а также понимание причин их отсутствия.

Оценка выбросов: обнаружение и изучение выбросов, чтобы понять их влияние на набор данных и решить, как с ними справиться (например, удалить, преобразовать).

Анализ корреляций между переменными с помощью коэффициентов корреляции и диаграмм рассеяния для выявления взаимосвязей и потенциальных зависимостей.

Оценка закономерностей, тенденций или аномалий в данных, которые могут быть визуализированы с помощью линейных графиков, гистограмм или анализа временных рядов.

Сравнение показателей в разных группах для выявления существенных различий или сходств.
🔥1
Проверка пригодности модели линейной регрессии в медицинских исследованиях (про допущения метода)

Применение метода линейной регрессии в статистике требует выполнения обязательного набора допущений, без которых итоговый результат может быть некорректным. Каждое из допущенией проверяется другими статистическими или графическими методами.

Линейность: связь между предикторами (например, возраст пациента, уровень сахара в крови) и откликом (например, риск развития диабета) должна быть линейной. Это означает, что изменение предиктора приводит к пропорциональному изменению отклика.

Независимость: остатки или ошибки (разница между фактическим и предсказанным значением отклика) должны быть независимы друг от друга. Например, результат анализа одного пациента не должен зависеть от результатов других пациентов.

Гомоскедастичность против гетероскедастичности: остатки должны иметь постоянное распределение на всех уровнях независимой переменной. Например, разброс уровней артериального давления должен быть одинаковым для разных возрастных групп.

Нормальность остатков (многомерная нормальность): остатки должны следовать нормальному распределению, подобному колоколообразной кривой распределения роста в популяции.

Отсутствие мультиколлинеарности: предикторы (например, возраст и масса тела) не должны быть сильно коррелированы друг с другом, чтобы можно было оценить их независимое влияние на отклик.

Отсутствие выбросов. Выбросы нарушают линейность взаимосвязей и приводят к другим проблемам с допущениями линейной регрессии.
Дополнительно читайте здесь.
🔥1
Про тест Cochran-Armitage (Кохрейна-Армитажа)

Тест Cochran-Armitage на тренд (также известный как тест на линейный тренд в пропорциях) - статистический метод, используемый для выявления наличия линейной тенденции между бинарным исходом и порядковой или непрерывной независимой переменной. Используется для определения, существует ли линейная связь между долей (частотой) некоего исхода и уровнями упорядоченного предиктора. Часто применяется в медицинских исследованиях, эпидемиологии, где нужно оценить тренд.

Тест проверяет следующие гипотезы:
Нулевая гипотеза (H0): Нет линейного тренда.
Альтернативная гипотеза (H1): Существует линейный тренд.

Тест предполагает линейную связь, если тренд нелинейный (например, U-образный), тест может не обнаружить его или дать неверный результат.
 Пример. Предположим, вы изучаете заболеваемость или летальность за N-летний период. Тогда тест Cochran-Armitage поможет определить, существует ли статистически значимый возрастающий тренд в частоте заболевания с течением времени. Если тест покажет значимый результат, это будет свидетельствовать о наличии линейного тренда в частоте события во времени. Положительный тренд будет указывать на увеличение частоты события со временем, отрицательный - на уменьшение.
This media is not supported in your browser
VIEW IN TELEGRAM
Прогностические модели в медицине: точность имеет значение

Главная задача прогностической модели в медицине - предоставить врачу и пациенту точную оценку вероятности определенного исхода. Будь то риск развития заболевания, вероятность осложнений или прогноз выживаемости - модель должна давать надежный прогноз, основанный на индивидуальных характеристиках пациента.

Продемонстрируем два примера широко используемых прогностических моделей:

Модель пропорциональных рисков Кокса позволяет оценить влияние различных факторов на время до наступления определенного события (например, рецидива заболевания).
This media is not supported in your browser
VIEW IN TELEGRAM
Бинарная логистическая регрессия используется для прогнозирования вероятности наступления события, имеющего два возможных исхода (например, наличие или отсутствие заболевания или осложнения).

Разработка точных и надежных прогностических моделей требует глубокого понимания как статистических методов, так и специфики медицинской области. Создание индивидуальных прогностических моделей "под ключ" для различных медицинских задач включает в себя:

Анализ ваших данных и выбор оптимального метода моделирования;
Разработку и валидацию модели;
Создание удобных интерфейсов и калькуляторов для практического применения модели;
Полное сопровождение описания модели в вашей научной работе и внедрение модели в клиническую практику.

Пишите: @glivec
Еще раз про центральную предельную теорему

Центральная предельная теорема (ЦПТ) является фундаментальной концепцией в статистике, имеющей широкие приложения. Она утверждает, что распределение выборочных средних приближается к нормальному распределению (гауссовскому распределению) по мере увеличения размера выборки, независимо от исходного распределения популяции. Это имеет решающее значение для проведения выводов о популяциях на основе выборочных данных.

Понимание ЦПТ значительно улучшает навыки анализа данных, предоставляя надежную основу для проверки гипотез и оценки доверительных интервалов. Однако у нее есть некоторые ограничения:

Размер выборки: для эффективного применения ЦПТ требуется достаточно большой размер выборки. Небольшие выборки могут не давать точных результатов.
Независимость: выборки должны быть независимыми. Зависимости между данными могут исказить результаты.
Одинаковое распределение: выборки должны происходить из одного и того же распределения.

Несмотря на эти недостатки, ЦПТ остается чрезвычайно полезной. Вот почему:

✔️ Универсальность: она применима к широкому диапазону распределений, что делает ее универсальной для различных наборов данных.
✔️ Предсказуемость: при достаточно большом размере выборки прогнозы о параметрах популяции становятся более точными.
✔️ Простота: она упрощает сложные задачи, позволяя статистикам и аналитикам данных использовать свойства нормального распределения для анализа.
🗣️ Каждые 1.5 часа в мире создается новая клиническая прогностическая модель. 99% из них бесполезны (никогда не будут использованы в практике)!
🔥3👍2
🗣️ И в классической (фриквентисткой) и в байесовской статистике ключевым понятием является понятие вероятности. В классической статистике это p-уровень значимости, который является вероятностью наблюдать данные, которые вы наблюдаете, но не является вероятностью верности вашей гипотезы! Низкая вероятность (менее 5%) наблюдать то, что вы наблюдаете при гипотезе, что такого не должно быть (нулевая гипотеза), дает вам основания принять вашу гипотезу, как верную, с большой долей уверенности. Вероятность же в байесовской статистике, которая лежит в пределах от 0 до 1, это именно вероятность того, что ваша гипотеза верна.
Читая чаты по медицинской статистике ...

Просить порекомендовать метод статистического анализа для своих данных, а потом наблюдать спор, что лучше Спирмен или Пирсон, Стьюдент или Манн-Уитни, Фридман или кто-то еще, что часто видишь в чатах по статистике, это как лечить анализы, а не диагноз у пациента. Да, все мы учимся и нет предела совершенства, и тем, кто еще в самом начале своего научного пути позволено задавать разные вопросы подобного рода, но всегда есть НО! Есть немало экспертов в тех же чатах, которые учат, советуют и даже преподают за деньги. Но все сводится к лечению анализов, а не пациента. Где формулировки научных гипотез и рассуждения в контексте их доказательств? Их нет. Спрашивайте и советуйте не как купировать симптом, а как вылечить болезнь! Купирование симптомов - не чем не лучше, чем p-хакинг, напротив, лечение первопричины этих сиптомов равно доказательству научной гипотезы. Да и симптоматическое лечение, которое рекомендуют многие, зачастую малоэффективно. Но люди склоны верить и доверять, не проверяя так ли хорошо на самом деле работает лекарство (совет), который им дал тот или иной "гуру". Совет из ряда "используйте ROC-анализ, чтобы найти порог для вашей прогностической модели или превращения количественной переменной в категориальную" равноценен совету выпить яд, чтобы долго не мучаться.
Начинайте с дизайна своего исследования, формулируйте научные гипотезы, каждую из которых можно проверять разными методами статистического анализа, также как для разного диагноза может существовать несколько видов лекарств. Не спрашивайте про симптоматическое лечение, ищите возможность решения проблемы целиком. Не занимайтесь наукой для галочки, потому что для этого вам не нужно ничего спрашивать, вам нужно просто уметь сочинять (ИИ в помощь). Познание истины - единственная возможная цель, но она не всегда достижима, это тоже нужно понимать. Поэтому ставьте только те задачи, которые реально решить. Что реально, а что нет, определяет правильный дизайн вашего исследования и методы статистического анализа для каждой и сформулированных научных гипотез.
@glivec
👍1
🗣️ Причинно-следственный вывод больше зависит от дизайна исследования, нежели от метода статистического анализа или машинного обучения.
Луи Доминик Жюль Гаварре (28 января 1809 - 30 августа 1890) - пионер "статистического метода" в медицине, его книга "Principes de Statistique Médicale" (1840) одна из первых, в которой изложены статистические принципы для тщательного проведения клинических исследований.

Впервые он слышит о "вычислении вероятностей" в октябре 1835 года во время дебатов в Академии наук, где Навье - автор уравнения Навье-Стокса, описывает, как можно применить свое уравнение в терапевтических исследованиях (и побеждает в дебатах).
Лаплас и Пуассон уже предполагали, что расчеты вероятностей могут быть применены к количественным медицинским данным, чтобы помочь в принятии клинических решений. Гаварре ссылается на них в своей работе "Probabilité des Jugements.’".
Гаварре вычисляет прототип доверительного интервала ("limites d'oscillation") для данных Пьера-Шарля Луи об эффективности кровопускания как метода лечения пневмонии. Луи сообщил о 52 смертях из 140 пациентов (37%). Аргументируя против принятия точечной оценки Луи за чистую монету, он говорит: "Все, что мы узнали... в действительности, это то, что под влиянием лечебных средств, использованных в его 140 наблюдениях, количество смертей должно колебаться... приблизительно между 49 и 26 случаев смерти на 100 пациентов".

Его 5 советов по проведению клинических испытаний по-прежнему актуальны:
1. "Пациенты должны быть взяты исключительно в одном населенном пункте и из одних и тех же слоев населения"
2. "У пережитого заболевание пациента должен быть точный диагноз и идеальное его определение. Оно должно быть нозологически четко очерчено и отделено от болезней, наиболее похожих на него в данной группе"
3. "Статистические данные по заболеванию должны содержать точное указание числа случаев в рамках каждой из его разновидностей"
4. "Необходимо четко формулировать применяемое лекарство, а также его основные модификации для каждой из разновидностей заболевания"
5. "Медицинский статистик должен быть компетентным".
Ежегодно публикуется множество медицинских прогностических моделей, но зачастую они имеют методологические недостатки, которые ограничивают их валидность и применимость. Представлено руководство из 13 шагов, которое поможет медицинским работникам и исследователям разрабатывать и проверять модели прогнозирования, избегая распространенных "подводных камней". На первом этапе необходимо определить цель модели прогнозирования, включая целевую популяцию, прогнозируемый исход, медицинскую среду, в которой будет использоваться модель и предполагаемых пользователей. Прогнозное моделирование требует совместных и междисциплинарных усилий в рамках команды, которая в идеале включает клиницистов с опытом работы, методистов и пользователей. К числу распространенных ошибок относятся неправильная категоризация непрерывных исходов или предикторов, точки отсечения (пороги), основанные на данных, одномерные методы выбора предикторов, чрезмерная подгонка, недостаточное внимание к отсутствующим данным и неверная оценка эффективности и клинической пользы модели.
Помощь в создании прогностических моделей на statshots.ru
Машинное обучение играет важнейшую роль во многих современных областях науки и инновациях. Все методы МО можно разделить на несколько главных групп, которые могут пересекаться между собой в решении тех или иных практических задач:

Регрессия
Классификация
Кластеризация
Оптимизация
Компьютерное зрение
Прогнозирование
Рекомендательные системы
Обработка естественного языка (NLP)

Изучение 1-3 ключевых алгоритмов в каждой из этих областей может значительно повысить вашу универсальность как специалиста по анализу данных.