Малоизвестное интересное

Есть три вида лжи: ложь, наглая ложь и статистика.

Вывод опубликованной сегодня совместной статьи 2х весьма продвинутых центров компетенции в области спортивных наук (США и Австралия) звучит приговором - «Текущие исследования и статистические практики в спортивной науке нужно менять».
http://www.mdpi.com/2075-4663/5/4/87/htm
Авторы пришли к однозначному выводу, что применение классического частотного подхода, использующего т.н. P-значение (P-value) для тестировании статистических гипотез, в науках о спорте слишком часто дает ошибочные результаты. И потому его срочно нужно менять на байесовский подход.

Вот уже много лет в мире идет борьба 2х типов статистического мышления (частотного и байесовского) за влияние на науку и нашу повседневную жизнь (поясняющее видео: 1,5 мин https://goo.gl/KANFQj и 4 мин https://goo.gl/LfSMWt ).

Тип статистического мышления
✔️ в науке определяет, какая из новых гипотез верна, а какая нет,
✔️ а в повседневной жизни определяет нашу трактовку вероятности, влияющую на оценку событий настоящего и прогнозы будущего.

Противостояние частотного и байесовского подходов в статистике касается далеко не только спортивных наук.
Битва идет по всей ширине фронта: от медицины и фармакологии http://www.perfendo.org/docs/BayesProbability/twelvePvaluemisconceptions.pdf до юристов, экономистов, социологов и др. https://goo.gl/chk1Yf .

А тем временем, миром по-прежнему правит классический частотный подход понимания вероятности.
Скажем, если вы бросили монетку 100 раз и 49 раз выпал «орёл», то можно говорить, что вероятность выпадания «орла» близка к 49% (чем больше экспериментов, тем точнее мы оценим вероятность).
Но это т.н. прямая задача - у нас есть точная модель процесса и мы хотим подсчитать по ней вероятность какого-либо исхода.
А как быть, если точной модели нет? Например. Есть корзина с яблоками. Яблоки бывают красные и зелёные. Мы берём из корзины N яблок. Из них X красных яблок и Y зелёных. А теперь мы хотим узнать, каков в корзине процент зелёных яблок, а каков красных.

Существенное различие между байесовским и частотным подходами в статистике заключается в том, как используется вероятность. Частотная статистика использует вероятность только чтобы смоделировать процесс в рамках имеющейся «выборки» (это вынутые нами N яблок). Байесовская статистика использует вероятность более широко, чтобы, помимо выборки, моделировать еще и другие виды неопределенности.
— Частотная статистика хорошо работает там, где данных больше, чем переменных.
— Байесовская же лучше там, где переменных больше, чем данных, или же для поиска среди массы переменных наиболее важных.

Самое же имхо опасное - это повсеместное использование частотного статистического мышления в профессиональной деятельности таких специальностей, как врачи.
Вот страшный пример – диагностика рака (видео на 2,5 мин https://goo.gl/h9UyiQ )
95% врачей завышают оценку вероятности рака при диагностике в 10 раз!
Другие примеры можете посмотреть здесь (видео на 22 мин https://goo.gl/UTG9nz )
- - - - -
И в заключение.
Проблема используемого типа статистического мышления и трактовки вероятности сейчас становится еще актуальней в связи с повсеместным внедрением глубокого обучения нейронных сетей. Здесь все не так оптимистично. Хотя есть надежда на использование того же нейробайесовского подхода (подробней текст и видео 30 мин https://goo.gl/tKEzf5 ).
#Статистика

MDPI

Current Research and Statistical Practices in Sport Science and a Need for Change

Current research ideologies in sport science allow for the possibility of investigators producing statistically significant results to help fit the outcome into a predetermined theory. Additionally, under the current Neyman-Pearson statistical structure,…

5.7K viewsedited 14:50

About

Blog

Apps

Platform