☃ Коллеги! Поздравляем всех с наступающим Новым Годом!
Желаем всем правильных доказательств научных гипотез, низкого риска систематических ошибок и больших мощностей ваших статистических данных.
Кстати, увеличить мощность ваших данных вам поможет dataclone.ru
Желаем всем правильных доказательств научных гипотез, низкого риска систематических ошибок и больших мощностей ваших статистических данных.
Кстати, увеличить мощность ваших данных вам поможет dataclone.ru
👍3
И снова про p-уровень значимости
В вопросе выше правильный ответ "Если нулевая гипотеза верна, то вероятность получить такой же или более значимый результат = 6%". Другими словами, если вы совершили ошибку (ошибка 1 рода - найти различия там, где их нет), то вероятность ее повторить и будет p-уровнем значимости. Или еще короче, p-уровень значимости = вероятности дважды совершить ошибку 1 рода при повторении эксперимента. Из этого вытекают две проблемы:
1. Насколько эта вероятность (5%) большая или маленькая?! По сути вся частотная статистика, а значит и все выводы клинических исследований базируются на данном уровне вероятности. Лечение для больного выбирается с вероятностью ошибки верного решения 5% и она универсальна для всех клинических случаев, заболеваний и методов терапии. Но в реальной жизни, если бы ваш персональный выбор лечения и риск ошибки был равен 4.9% (<0.05), насколько он был бы приемлемым? Возможно кто-то захотел бы его уменьшить до 1% (0.01).
2. Порог 5% делит все многообразие решений на 2 категории: ДА (статистически значимо) и НЕТ (статистически не значимо). Возьмем два примера: в одном p=0.049, в другом p=0.051. В первом случае мы примем решение, во втором - нет. Но на самом деле вероятности отличаются лишь на 0.002 (0.2%). В реальной жизни мы считаем такие различия несущественными и не меняем своих решений.
Реальный пример. В рандомизированном клиническом исследовании терапия 'А' показала преимущество перед терапией 'В' по беспрогрессивной выживаемости, HR = 0.73, p=0.02. Это достаточное основание, чтобы одобрить применение терапии 'А' вместо терапии 'В' для определенной категории пациентов. При этом цена терапи 'А' = $3500 за одну инъекцию, а терапии 'В' = $40. Если посмотреть на абсолютные результаты: отличия в беспрогрессивной выживаемости через 24 мес. терапии составляют лишь 6%. Другими словами, только 6 пациентов из 100 получают преимущество по данному критерию. Цена же лечения для одного пациента выше в 87.5 раз. Общая выживаемость пациентов в обеих группах не отличалась. В данном случае лечение 'В' никак нельзя считать плохим. Лечение 'А' чуть лучше, но ценник явно нужно снизить.
В вопросе выше правильный ответ "Если нулевая гипотеза верна, то вероятность получить такой же или более значимый результат = 6%". Другими словами, если вы совершили ошибку (ошибка 1 рода - найти различия там, где их нет), то вероятность ее повторить и будет p-уровнем значимости. Или еще короче, p-уровень значимости = вероятности дважды совершить ошибку 1 рода при повторении эксперимента. Из этого вытекают две проблемы:
1. Насколько эта вероятность (5%) большая или маленькая?! По сути вся частотная статистика, а значит и все выводы клинических исследований базируются на данном уровне вероятности. Лечение для больного выбирается с вероятностью ошибки верного решения 5% и она универсальна для всех клинических случаев, заболеваний и методов терапии. Но в реальной жизни, если бы ваш персональный выбор лечения и риск ошибки был равен 4.9% (<0.05), насколько он был бы приемлемым? Возможно кто-то захотел бы его уменьшить до 1% (0.01).
2. Порог 5% делит все многообразие решений на 2 категории: ДА (статистически значимо) и НЕТ (статистически не значимо). Возьмем два примера: в одном p=0.049, в другом p=0.051. В первом случае мы примем решение, во втором - нет. Но на самом деле вероятности отличаются лишь на 0.002 (0.2%). В реальной жизни мы считаем такие различия несущественными и не меняем своих решений.
Реальный пример. В рандомизированном клиническом исследовании терапия 'А' показала преимущество перед терапией 'В' по беспрогрессивной выживаемости, HR = 0.73, p=0.02. Это достаточное основание, чтобы одобрить применение терапии 'А' вместо терапии 'В' для определенной категории пациентов. При этом цена терапи 'А' = $3500 за одну инъекцию, а терапии 'В' = $40. Если посмотреть на абсолютные результаты: отличия в беспрогрессивной выживаемости через 24 мес. терапии составляют лишь 6%. Другими словами, только 6 пациентов из 100 получают преимущество по данному критерию. Цена же лечения для одного пациента выше в 87.5 раз. Общая выживаемость пациентов в обеих группах не отличалась. В данном случае лечение 'В' никак нельзя считать плохим. Лечение 'А' чуть лучше, но ценник явно нужно снизить.
👍4
#глоссарий
✍ Allocation ratio (коэффициент распределения) - соотношение размеров выборок двух параллельных групп с двумя видами
лечения в исследовании (например, в рандомизированном). Чем коэффициент больше 1 (размеры групп равны), тем больше размер выборки требуется.
✍ Allocation ratio (коэффициент распределения) - соотношение размеров выборок двух параллельных групп с двумя видами
лечения в исследовании (например, в рандомизированном). Чем коэффициент больше 1 (размеры групп равны), тем больше размер выборки требуется.
#глоссарий
✍ ANOVA (дисперсионный анализ) - используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп. В случае двух групп ANOVA = t-тесту.
ANCOVA (ковариационный анализ) - комбинация ANOVA (дисперсионного анализа) и линейной регрессии, один из вариантов регрессионного анализа. Он имеет дело как с категориальными, так и с непрерывными переменными. Это специальный статистический метод для определения степени дисперсии одной переменной, вызванной изменчивостью других. Цель ANCOVA - определить, существует ли статистически значимое различие между тремя или более независимыми группами после учета одной или нескольких ковариат. Например, мы можем оценить влияет ли наше лечение (фактор) на уровень сахара в крови (зависимая переменная) с учетом возраста или возрастной группы (ковариата).
✍ ANOVA (дисперсионный анализ) - используется для определения наличия или отсутствия статистически значимой разницы между средними значениями трех или более независимых групп. В случае двух групп ANOVA = t-тесту.
ANCOVA (ковариационный анализ) - комбинация ANOVA (дисперсионного анализа) и линейной регрессии, один из вариантов регрессионного анализа. Он имеет дело как с категориальными, так и с непрерывными переменными. Это специальный статистический метод для определения степени дисперсии одной переменной, вызванной изменчивостью других. Цель ANCOVA - определить, существует ли статистически значимое различие между тремя или более независимыми группами после учета одной или нескольких ковариат. Например, мы можем оценить влияет ли наше лечение (фактор) на уровень сахара в крови (зависимая переменная) с учетом возраста или возрастной группы (ковариата).
👍2
#глоссарий
Ассоциация (Association) - взаимосвязь двух или более переменных, когда одна переменная влияет на другую через изменения в данных.
Корреляция (Correlation) - частный случай ассоциации, когда изменение одной переменной сопровождается измением другой. Корреляция не подразумевает причинно-следственной связи!
Причинно-следственная связь (Causation) - ассоциация, при которой одна переменная является причиной изменений другой. Главным критерием является возможность прогнозировать результат (следствие), при изменении значения в причинной переменной, при этом данный процесс имеет строгую направленность. Причинно-следственные связи бывает трудно установить из-за других факторов (вмешивающихся или спутывающих, сбивающих с толку переменных - confounding variables), которые также образуют ассоциации. Чтобы установить причинно-следственную связь, необходимо использовать экспериментальные методы, когда исследователь манипулирует независимой переменной и наблюдает ее влияние на зависимую переменную, контролируя другие спутывающие переменные. Причинно-следственная связь не всегда сопровождается корреляцией.
Регрессия (Regression) - метод описания ассоциации между зависимой и независимой переменными. Метод прогнозирования и предсказания результата через моделирование.
🦈🍦Например, нападение акул коррелирует с продажами мороженого. Причина того и другого - жаркая погода (люди купаются и едят мороженое)
Ассоциация (Association) - взаимосвязь двух или более переменных, когда одна переменная влияет на другую через изменения в данных.
Корреляция (Correlation) - частный случай ассоциации, когда изменение одной переменной сопровождается измением другой. Корреляция не подразумевает причинно-следственной связи!
Причинно-следственная связь (Causation) - ассоциация, при которой одна переменная является причиной изменений другой. Главным критерием является возможность прогнозировать результат (следствие), при изменении значения в причинной переменной, при этом данный процесс имеет строгую направленность. Причинно-следственные связи бывает трудно установить из-за других факторов (вмешивающихся или спутывающих, сбивающих с толку переменных - confounding variables), которые также образуют ассоциации. Чтобы установить причинно-следственную связь, необходимо использовать экспериментальные методы, когда исследователь манипулирует независимой переменной и наблюдает ее влияние на зависимую переменную, контролируя другие спутывающие переменные. Причинно-следственная связь не всегда сопровождается корреляцией.
Регрессия (Regression) - метод описания ассоциации между зависимой и независимой переменными. Метод прогнозирования и предсказания результата через моделирование.
🦈🍦Например, нападение акул коррелирует с продажами мороженого. Причина того и другого - жаркая погода (люди купаются и едят мороженое)
👍2
#глоссарий
Data science (наука о данных) - однополый брак между статистикой и информатикой.
Data science (наука о данных) - однополый брак между статистикой и информатикой.
🎄С Рождеством всех, за исключением тех людей, у которых точность моделей на тестовых данных = 100%
🤣4
Про фундаментальную неопределенность
Почему ваша статистическая выборка никогда не будет полностью соответствовать генеральной совокупности, даже если вы собрали все имеющиеся в мире данные. Из-за фундаментальной неопределенности. Вы можете собрать все наблюдения изучаемого вами явления, но у вас не будет тех наблюдений, которые не произошли или не произойдут в будущем.
Фундаментальная неопределенность - тип неопределенности, которую нельзя устранить или уменьшить никакими известными средствами. Она возникает из-за фундаментальных ограничений нашего знания и понимания мира и часто связана с присущей определенным явлениям случайностью или непредсказуемостью.
Например, в квантовой механике принцип неопределенности Гейзенберга гласит, что принципиально невозможно одновременно знать с абсолютной точностью положение и импульс частицы. Это пример фундаментальной неопределенности, поскольку невозможно устранить или уменьшить эту неопределенность никакими известными средствами.
Другие примеры фундаментальной неопределенности включают непредсказуемость результата подбрасывания монеты, непредсказуемость точной траектории урагана и непредсказуемость точного времени землетрясения. Эти явления случайны и не могут быть предсказаны с абсолютной уверенностью в силу фундаментальной ограниченности понимания и предсказания природы вещей.
Поэтому в статистике не может быть ничего абсолютно точного, всегда используйте интервалы неопределенности.
Почему ваша статистическая выборка никогда не будет полностью соответствовать генеральной совокупности, даже если вы собрали все имеющиеся в мире данные. Из-за фундаментальной неопределенности. Вы можете собрать все наблюдения изучаемого вами явления, но у вас не будет тех наблюдений, которые не произошли или не произойдут в будущем.
Фундаментальная неопределенность - тип неопределенности, которую нельзя устранить или уменьшить никакими известными средствами. Она возникает из-за фундаментальных ограничений нашего знания и понимания мира и часто связана с присущей определенным явлениям случайностью или непредсказуемостью.
Например, в квантовой механике принцип неопределенности Гейзенберга гласит, что принципиально невозможно одновременно знать с абсолютной точностью положение и импульс частицы. Это пример фундаментальной неопределенности, поскольку невозможно устранить или уменьшить эту неопределенность никакими известными средствами.
Другие примеры фундаментальной неопределенности включают непредсказуемость результата подбрасывания монеты, непредсказуемость точной траектории урагана и непредсказуемость точного времени землетрясения. Эти явления случайны и не могут быть предсказаны с абсолютной уверенностью в силу фундаментальной ограниченности понимания и предсказания природы вещей.
Поэтому в статистике не может быть ничего абсолютно точного, всегда используйте интервалы неопределенности.
👍2
Что может, а что не может категоризация
Категоризация (введение порога любым из методов) дает интерпретируемые оценки, такие как отношение шансов или рисков. Например, предположим, что вычисляется отношение шансов инсульта для лиц с систолическим артериальным давлением >160 мм рт. ст. по сравнению с лицами с артериальным давлением <= 160 мм рт.ст. В данном случае 160 - это порог. Интерпретация полученного отношения шансов будет зависеть от точного распределения артериального давления в выборке (доля субъектов >170, >180 и т.д.). Ведь если ошибиться с измерением, пациент может запросто попасть из одной группы в другую. Истинный риск инсульта у пациента с АД 161 мм.рт.ст. будет не сильно выше, чем у пациента с АД=159, однако ОШ может быть очень высоким, так как больные будут находиться в разных группах. С другой стороны пациент с АД 200 мм рт.ст. будет иметь намного более высокий риск инсульта, чем больной с АД=161, но при категоризации они будут находиться в одной группе риска. Введение порога отрывает нас от истинной картины мира. Когда оценивается риск инсульта у нового пациента с известным АД (скажем, 162), пациент не сообщает своему врачу «мое АД превышает 160», он скорее скажет о конкретном значении 162 мм рт.ст. Поэтому АД должно моделироваться (не обязательно линейно) как непрерывная переменная. Это позволит не только посчитать персональный риск от 0 до 1 для каждого пациента, но и оценить отношение шансов для точных настроек предиктора, например, отношение шансов для пациента с АД 200 мм рт.ст. по сравнению с АД 120 мм рт. Создание порогов (дихотомия данных) - частое и пагубное явление в анализе данных, которое называется дихотоманией.
Категоризация (введение порога любым из методов) дает интерпретируемые оценки, такие как отношение шансов или рисков. Например, предположим, что вычисляется отношение шансов инсульта для лиц с систолическим артериальным давлением >160 мм рт. ст. по сравнению с лицами с артериальным давлением <= 160 мм рт.ст. В данном случае 160 - это порог. Интерпретация полученного отношения шансов будет зависеть от точного распределения артериального давления в выборке (доля субъектов >170, >180 и т.д.). Ведь если ошибиться с измерением, пациент может запросто попасть из одной группы в другую. Истинный риск инсульта у пациента с АД 161 мм.рт.ст. будет не сильно выше, чем у пациента с АД=159, однако ОШ может быть очень высоким, так как больные будут находиться в разных группах. С другой стороны пациент с АД 200 мм рт.ст. будет иметь намного более высокий риск инсульта, чем больной с АД=161, но при категоризации они будут находиться в одной группе риска. Введение порога отрывает нас от истинной картины мира. Когда оценивается риск инсульта у нового пациента с известным АД (скажем, 162), пациент не сообщает своему врачу «мое АД превышает 160», он скорее скажет о конкретном значении 162 мм рт.ст. Поэтому АД должно моделироваться (не обязательно линейно) как непрерывная переменная. Это позволит не только посчитать персональный риск от 0 до 1 для каждого пациента, но и оценить отношение шансов для точных настроек предиктора, например, отношение шансов для пациента с АД 200 мм рт.ст. по сравнению с АД 120 мм рт. Создание порогов (дихотомия данных) - частое и пагубное явление в анализе данных, которое называется дихотоманией.
👍2
#глоссарий
Правило Байеса: вероятность того, что событие A произойдет при случившемся событии B, равна вероятности события B при случившемся событии A, умноженная на (безусловную) вероятность события A, деленное на (безусловную) вероятность события B.
Правило Байеса: вероятность того, что событие A произойдет при случившемся событии B, равна вероятности события B при случившемся событии A, умноженная на (безусловную) вероятность события A, деленное на (безусловную) вероятность события B.
#глоссарий
Байесовская модель - статистическая модель, основанная на байесовском подходе к вероятности ☝, который представляет собой интерпретацию вероятности, основанную на степени веры в событие. В байесовской модели вероятность интерпретируется как мера силы доказательств или веры в событие, а не как частота события, а статистический вывод основан на идее обновления наших предварительных убеждений о событии или новых доказательств или данных. Это делается с помощью теоремы Байеса, которая представляет собой математическую формулу, описывающую, как обновить вероятность события на основе новых данных.
Байесовские модели широко используются в различных областях, включая статистику и машинное обучение. Они особенно полезны в ситуациях, когда трудно получить большой объем данных или когда основной процесс генерирования данных сложен и неопределенен. Байесовские модели позволяют учитывать предварительные знания и субъективные убеждения о событии или параметре, что может быть полезно для создания более точных прогнозов или выводов.
Байесовская модель - статистическая модель, основанная на байесовском подходе к вероятности ☝, который представляет собой интерпретацию вероятности, основанную на степени веры в событие. В байесовской модели вероятность интерпретируется как мера силы доказательств или веры в событие, а не как частота события, а статистический вывод основан на идее обновления наших предварительных убеждений о событии или новых доказательств или данных. Это делается с помощью теоремы Байеса, которая представляет собой математическую формулу, описывающую, как обновить вероятность события на основе новых данных.
Байесовские модели широко используются в различных областях, включая статистику и машинное обучение. Они особенно полезны в ситуациях, когда трудно получить большой объем данных или когда основной процесс генерирования данных сложен и неопределенен. Байесовские модели позволяют учитывать предварительные знания и субъективные убеждения о событии или параметре, что может быть полезно для создания более точных прогнозов или выводов.
#глоссарий
Аппроксимация (от лат. proxima — ближайшая) или приближение - метод упрощения или замены одних данных другими, близкими к исходным, часто более простыми.
Разные примеры аппроксимации:
1. Средняя вариационного ряда (грубая характеристика всего распределения)
2. Постоянная e = 3 - √ (5/63) = 2.71828...
3. Золотое сечение = (1 + √ 5)/2 = 1.618...
4. Кубический сплайн количественной переменной в регрессионной модели, которая не имеет линейной взаимосвязи с исходом в уравнении регрессии (помните, что часто ковариаты не имеют линейной взаимосвязи с исходом или логитом вероятности исхода).
Пример нелинейной взаимосвязи: низкая температура тела (<36) также плохо, как и высокая температура (>38). И то и то - критерии сепсиса по критериям SIRS, что ассоцируется с плохим прогнозом. В то время как температура 36-38 будет минимально влиять на неблагоприятный исход. В подобных случаях при построении регрессионной модели необходимо аппроксимировать количественную ковариату перед включением в модель.
Аппроксимация (от лат. proxima — ближайшая) или приближение - метод упрощения или замены одних данных другими, близкими к исходным, часто более простыми.
Разные примеры аппроксимации:
1. Средняя вариационного ряда (грубая характеристика всего распределения)
2. Постоянная e = 3 - √ (5/63) = 2.71828...
3. Золотое сечение = (1 + √ 5)/2 = 1.618...
4. Кубический сплайн количественной переменной в регрессионной модели, которая не имеет линейной взаимосвязи с исходом в уравнении регрессии (помните, что часто ковариаты не имеют линейной взаимосвязи с исходом или логитом вероятности исхода).
Пример нелинейной взаимосвязи: низкая температура тела (<36) также плохо, как и высокая температура (>38). И то и то - критерии сепсиса по критериям SIRS, что ассоцируется с плохим прогнозом. В то время как температура 36-38 будет минимально влиять на неблагоприятный исход. В подобных случаях при построении регрессионной модели необходимо аппроксимировать количественную ковариату перед включением в модель.
👍1
Про метод Монте-Карло
Какую информацию может дать всего одна диаграмма, опубликованная в статье? На самом деле намного больше, чем вы можете подумать ...
https://telegra.ph/Analiz-ehffektivnosti-terapii-metodom-Monte-Karlo-12-17
Какую информацию может дать всего одна диаграмма, опубликованная в статье? На самом деле намного больше, чем вы можете подумать ...
https://telegra.ph/Analiz-ehffektivnosti-terapii-metodom-Monte-Karlo-12-17
Telegraph
Про метод Монте-Карло на одном примере
На картинке выше представлены результаты исследования по лечению больных миелодиспластическим синдромом (МДС) высокого риска с применением 15-дневного курса терапии по схеме азацитидин+венетоклакс. Этой картинки достаточно, чтобы сделать симуляционную модель…
Про корреляцию
Корреляция - один из методов для решения задачи определения взаимосвязи между переменными, при которой изменения значений одной или нескольких значений одной переменной сопутствуют систематическому изменению значений другой или других величин.
Для чего подходит:
✅ Проверка гипотезы о наличии взаимосвязи между двумя переменными (взаимном изменении значений переменных)
✅ Определение силы и направления линейной взаимосвязи между переменными (от -1 до +1)
✅ Определение статистической значимости взаимосвязи между двумя переменными
✅ Анализ мультиколлинеарности перед регрессионным анализом
Для чего не подходит:
❌ Определение причино-следственной связи между переменными (корреляция может быть из-за причинно-следственной связи между переменными, так и из-за наличия единой причины, влияющей на обе переменные сразу)
❌ Прогнозирование (требуется регрессионный анализ)
Корреляция - один из методов для решения задачи определения взаимосвязи между переменными, при которой изменения значений одной или нескольких значений одной переменной сопутствуют систематическому изменению значений другой или других величин.
Для чего подходит:
✅ Проверка гипотезы о наличии взаимосвязи между двумя переменными (взаимном изменении значений переменных)
✅ Определение силы и направления линейной взаимосвязи между переменными (от -1 до +1)
✅ Определение статистической значимости взаимосвязи между двумя переменными
✅ Анализ мультиколлинеарности перед регрессионным анализом
Для чего не подходит:
❌ Определение причино-следственной связи между переменными (корреляция может быть из-за причинно-следственной связи между переменными, так и из-за наличия единой причины, влияющей на обе переменные сразу)
❌ Прогнозирование (требуется регрессионный анализ)
👍1
Про размер выборки при создании модели регрессии
Если вы забили на расчет размера выборки при создании модели логистической регрессии, то такие научные работы обычно даже не рассматриваются в приличных журналах. Правилом хорошего тона считается описать метод расчета размера выборки, который вы использовали. Минимальный размер выборки можно рассчитать с помощью различных эмпирических подходов (пишите в комментариях, если нужно про них написать подробно) и некоторыми современными более сложными способами. Но самое главное, о чем вам обычно никто и никогда не рассказывает (потому что сам не знает), что минимальный размер выборки нужен только как условие применение статистического метода, например, логистической регрессии. Но на этом создание модели не заканчивается! Вам еще нужна внутренняя и внешняя валидация, а также проверка модели на стабильность.
Классический подход внутренней валидации, который обычно рекомендуют - разбить выборку на тренировочную и тестовую, например в соотношении 80/20. Но так вы еще больше теряете данных! Кроме того, такой подход уместен, если у вас 20 тысяч наблюдений (порядок этой цифры доказан в ряде экспериментов). Другими словами вашего минимального размера выборки никак не хватит. Выход - строгая внутрення валидация через бутсрэппинг или синтез искусственных данных (пишите, если интересно). Для расчета размера выборки для внешней валидации можно применять теже методы минимального размера выборки для модели регрессии. А вот создание стабильной модели (отдельная тема, что это такое) даже эмпирически требует "тысяч" данных, которых как правило нет. Именно поэтому более 95% публикующихся моделей в научной литературе не пригодны для использования в реальной практике. Они просто плохие. Если у вас нет "тысяч" данных вам нужно либо их собрать, либо искусственно синтезировать (повысить мощность ваших данных - не идеально, но лучше, чем ничего), либо отказаться от задачи создания модели прогноза и не попадать в число "мусорных" публикаций. С методами машинного обучения тоже не все так просто ...
Это не означает, что не следует заниматься прогнозированием. Можно ограничиться многофакторным анализом для поиска предикторов интересующего вас явления, но не строить модели прогноза персонального риска.
Если вы забили на расчет размера выборки при создании модели логистической регрессии, то такие научные работы обычно даже не рассматриваются в приличных журналах. Правилом хорошего тона считается описать метод расчета размера выборки, который вы использовали. Минимальный размер выборки можно рассчитать с помощью различных эмпирических подходов (пишите в комментариях, если нужно про них написать подробно) и некоторыми современными более сложными способами. Но самое главное, о чем вам обычно никто и никогда не рассказывает (потому что сам не знает), что минимальный размер выборки нужен только как условие применение статистического метода, например, логистической регрессии. Но на этом создание модели не заканчивается! Вам еще нужна внутренняя и внешняя валидация, а также проверка модели на стабильность.
Классический подход внутренней валидации, который обычно рекомендуют - разбить выборку на тренировочную и тестовую, например в соотношении 80/20. Но так вы еще больше теряете данных! Кроме того, такой подход уместен, если у вас 20 тысяч наблюдений (порядок этой цифры доказан в ряде экспериментов). Другими словами вашего минимального размера выборки никак не хватит. Выход - строгая внутрення валидация через бутсрэппинг или синтез искусственных данных (пишите, если интересно). Для расчета размера выборки для внешней валидации можно применять теже методы минимального размера выборки для модели регрессии. А вот создание стабильной модели (отдельная тема, что это такое) даже эмпирически требует "тысяч" данных, которых как правило нет. Именно поэтому более 95% публикующихся моделей в научной литературе не пригодны для использования в реальной практике. Они просто плохие. Если у вас нет "тысяч" данных вам нужно либо их собрать, либо искусственно синтезировать (повысить мощность ваших данных - не идеально, но лучше, чем ничего), либо отказаться от задачи создания модели прогноза и не попадать в число "мусорных" публикаций. С методами машинного обучения тоже не все так просто ...
Это не означает, что не следует заниматься прогнозированием. Можно ограничиться многофакторным анализом для поиска предикторов интересующего вас явления, но не строить модели прогноза персонального риска.
7 "смертных" грехов в статистике
❌ Подгонка данных с целью получения p-уровня значимости менее 0.05
❌ Применение ROC-анализа для дихотомии количественной переменной перед логистической регрессией
❌ Игнорирование допущений к статистическим тестам, включая размер выборки
❌ Создание прогностической модели без валидации
❌ Использование корреляции для доказательства причинно-следственной связи
❌ Перенос результатов анализа своей выборки на генеральную совокупность без доверительных интервалов
❌ Приравнивание статистической значимости к клинической значимости
❌ Подгонка данных с целью получения p-уровня значимости менее 0.05
❌ Применение ROC-анализа для дихотомии количественной переменной перед логистической регрессией
❌ Игнорирование допущений к статистическим тестам, включая размер выборки
❌ Создание прогностической модели без валидации
❌ Использование корреляции для доказательства причинно-следственной связи
❌ Перенос результатов анализа своей выборки на генеральную совокупность без доверительных интервалов
❌ Приравнивание статистической значимости к клинической значимости
👍2
😏 Пришел как-то исследователь к статистику...
https://telegra.ph/Razgovor-issledovatelya-i-statistika-03-13
https://telegra.ph/Razgovor-issledovatelya-i-statistika-03-13
Telegraph
Разговор исследователя и статистика
Исследователь: Я провожу научную работу и мне нужно знать сколько пациентов необходимо включить в выборку? Я думаю, мне нужно только 3 пациента. Статистик: Ок. Какая цель работы? Исследователь: У меня лабораторное исследование. Могу я использовать только…
😁3
Про природу выбросов (Outliers) в данных и что с ними делать
Выбросы можно разделить на 2 группы:
✅ Фактические выбросы — значения, которые крайне нереальны или даже невозможны (физически, химически, биологически). Обычно достаточно взглянуть на экстремальные значения, чтобы убедиться в этом. Например, у человека не может быть температуры тела 60 градусов.
✅ Статистические выбросы — значения, которые просто далеки от ожидаемого значения. Например, такие значения, которые выходят за пределы 1.5 межквартильного размаха или за 3 стандартных отклонения.Вопрос удаления выбросов из данных - дискутабельный, так как удаление выброса, как правило, связано с удалением целого наблюдения. Удалять наблюдение, когда у вас мало данных, жалко и нерационально. Если статистические выбросы еще можно оставить, если они не нарушают допущения к применяемым методам статистического анализа, то фактические по определению требуют коррекции.
Варианты, как поступать с выбросами:
1. Не удалять выброс (если это статистический выброс, который не мешает анализу)
2. Удалить выброс и всё наблюдение вместе с ним (радикально, но нерационально)
3. Удалить выброс и оставить значение пустым (если пропущенное значение не будет мешать анализу)
4. Удалить выброс и выполнить вменение данных, заменив пустое значение искусственным.
Выбросы можно разделить на 2 группы:
✅ Фактические выбросы — значения, которые крайне нереальны или даже невозможны (физически, химически, биологически). Обычно достаточно взглянуть на экстремальные значения, чтобы убедиться в этом. Например, у человека не может быть температуры тела 60 градусов.
✅ Статистические выбросы — значения, которые просто далеки от ожидаемого значения. Например, такие значения, которые выходят за пределы 1.5 межквартильного размаха или за 3 стандартных отклонения.Вопрос удаления выбросов из данных - дискутабельный, так как удаление выброса, как правило, связано с удалением целого наблюдения. Удалять наблюдение, когда у вас мало данных, жалко и нерационально. Если статистические выбросы еще можно оставить, если они не нарушают допущения к применяемым методам статистического анализа, то фактические по определению требуют коррекции.
Варианты, как поступать с выбросами:
1. Не удалять выброс (если это статистический выброс, который не мешает анализу)
2. Удалить выброс и всё наблюдение вместе с ним (радикально, но нерационально)
3. Удалить выброс и оставить значение пустым (если пропущенное значение не будет мешать анализу)
4. Удалить выброс и выполнить вменение данных, заменив пустое значение искусственным.