Статистика важна для проведения различных экспериментов, машинное обучение тоже выросло из статистики. Попытался разобраться с некоторыми определениями https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/. Статья обзорная, чтобы разобраться как это использовать, придётся поискать примеры использования. Ниже я выписал основные понятия из статьи.
Внимание, текст ниже переполнен терминами из статистики.
Статья про статистическую мощность - вероятность отклонения основной (или нулевой) гипотезы при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная) гипотеза верна. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. Величина мощности также используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта.
Нулевая гипотеза - принимаемое по умолчанию предположение о том, что не существует связи между двумя наблюдаемыми событиями, феноменами. Так, нулевая гипотеза считается верной до того момента, пока нельзя доказать обратное. Опровержение нулевой гипотезы, то есть приход к заключению о том, что связь между двумя событиями, феноменами существует.
Ошибки первого и второго рода
Ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием. Если, например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня, то принятая гипотеза не верна, а следовательно совершена ошибка первого рода.
Ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием. Человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов)
Прикольно, что термин атака второго рода приминяется в компьютерной безопасности - это атака, которая стремится вызвать ложное срабатывание системы защиты и таким образом привести к недоступности ресурса.
P-значение - это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода)
Возвращаясь обратно к теме, величина мощности при проверке статистической гипотезы зависит от следующих факторов:
- величины уровня значимости, обозначаемого греческой буквой alpha , на основании которого принимается решение об отвержении или принятии альтернативной гипотезы;
- величины эффекта (то есть разности между сравниваемыми средними);
- размера выборки, необходимой для подтверждения статистической гипотезы.
Зная некоторые из параметров, можно вычислять другие испльзуя Power Analysis
#math #statistics
Внимание, текст ниже переполнен терминами из статистики.
Статья про статистическую мощность - вероятность отклонения основной (или нулевой) гипотезы при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная) гипотеза верна. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. Величина мощности также используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта.
Нулевая гипотеза - принимаемое по умолчанию предположение о том, что не существует связи между двумя наблюдаемыми событиями, феноменами. Так, нулевая гипотеза считается верной до того момента, пока нельзя доказать обратное. Опровержение нулевой гипотезы, то есть приход к заключению о том, что связь между двумя событиями, феноменами существует.
Ошибки первого и второго рода
Ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием. Если, например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня, то принятая гипотеза не верна, а следовательно совершена ошибка первого рода.
Ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием. Человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов)
Прикольно, что термин атака второго рода приминяется в компьютерной безопасности - это атака, которая стремится вызвать ложное срабатывание системы защиты и таким образом привести к недоступности ресурса.
P-значение - это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода)
Возвращаясь обратно к теме, величина мощности при проверке статистической гипотезы зависит от следующих факторов:
- величины уровня значимости, обозначаемого греческой буквой alpha , на основании которого принимается решение об отвержении или принятии альтернативной гипотезы;
- величины эффекта (то есть разности между сравниваемыми средними);
- размера выборки, необходимой для подтверждения статистической гипотезы.
Зная некоторые из параметров, можно вычислять другие испльзуя Power Analysis
#math #statistics
Сегодня хочу поделиться несколькими ссылками на обучающие статьи, первая из них о нейронных сетях на PyTorch, очень хороший туториал для того, чтобы начать, достаточно подробно и небольшими шагами объясняются всё более сложные идеи фреймворка https://pytorch.org/tutorials/beginner/nn_tutorial.html
Вторая о TensorFlow 2.0, он вот-вот выйдет, интересного там много и важные новшества отображены в виде серии твитов https://twitter.com/fchollet/status/1105139360226140160 ( есть документ, где можно сразу и запустить https://colab.research.google.com/drive/17u-pRZJnKN0gO5XZmq8n5A2bKGrfKEUg)
Дальше про математику, не сложная серия статей про важные концепции, которые нужны Data Science https://towardsdatascience.com/statistics-is-the-grammar-of-data-science-part-1-c306cd02e4db объяснение поверхностное, но не плохое в качестве отправной точки. Последняя статья из серии о важной теореме Байеса, о которой рекомендую почитать серию статей https://arbital.com/p/bayes_rule_guide/ подробно, на примерах с картинками, всё как мы любим
#nn #math #pytorch #tf #stats #tuturial
Вторая о TensorFlow 2.0, он вот-вот выйдет, интересного там много и важные новшества отображены в виде серии твитов https://twitter.com/fchollet/status/1105139360226140160 ( есть документ, где можно сразу и запустить https://colab.research.google.com/drive/17u-pRZJnKN0gO5XZmq8n5A2bKGrfKEUg)
Дальше про математику, не сложная серия статей про важные концепции, которые нужны Data Science https://towardsdatascience.com/statistics-is-the-grammar-of-data-science-part-1-c306cd02e4db объяснение поверхностное, но не плохое в качестве отправной точки. Последняя статья из серии о важной теореме Байеса, о которой рекомендую почитать серию статей https://arbital.com/p/bayes_rule_guide/ подробно, на примерах с картинками, всё как мы любим
#nn #math #pytorch #tf #stats #tuturial
Twitter
François Chollet
Are you a deep learning researcher? Wondering if all this TensorFlow 2.0 stuff you heard about is relevant to you? This thread is a crash course on everything you need to know to use TensorFlow 2.0 + Keras for deep learning research. Read on!