Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
Статистика важна для проведения различных экспериментов, машинное обучение тоже выросло из статистики. Попытался разобраться с некоторыми определениями https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/. Статья обзорная, чтобы разобраться как это использовать, придётся поискать примеры использования. Ниже я выписал основные понятия из статьи.

Внимание, текст ниже переполнен терминами из статистики.

Статья про статистическую мощность - вероятность отклонения основной (или нулевой) гипотезы при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная) гипотеза верна. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. Величина мощности также используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта.

Нулевая гипотеза - принимаемое по умолчанию предположение о том, что не существует связи между двумя наблюдаемыми событиями, феноменами. Так, нулевая гипотеза считается верной до того момента, пока нельзя доказать обратное. Опровержение нулевой гипотезы, то есть приход к заключению о том, что связь между двумя событиями, феноменами существует.

Ошибки первого и второго рода

Ошибку
первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием. Если, например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня, то принятая гипотеза не верна, а следовательно совершена ошибка первого рода.

Ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием. Человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов)

Прикольно, что термин атака второго рода приминяется в компьютерной безопасности - это атака, которая стремится вызвать ложное срабатывание системы защиты и таким образом привести к недоступности ресурса.

P-значение - это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода)

Возвращаясь обратно к теме, величина мощности при проверке статистической гипотезы зависит от следующих факторов:

- величины уровня значимости, обозначаемого греческой буквой alpha , на основании которого принимается решение об отвержении или принятии альтернативной гипотезы;
- величины эффекта (то есть разности между сравниваемыми средними);
- размера выборки, необходимой для подтверждения статистической гипотезы.

Зная некоторые из параметров, можно вычислять другие испльзуя Power Analysis

#math #statistics