Data&Knowledge

Точный тест Фишера Тема на эту неделю "Точный тест Фишера" (Fisher’s Exact Test). Этот тест применяется, на малых выборках, когда использование критерия хи-квадрат невозможно. Интересно, что тест опирается на гипергеометрическое распределение и не является…

Точный тест Фишера

У нас был набор вопросов на неделю:
Как и почему работает тест Фишера?
Почему он называется точным?
Какие границы его применимости?
Покажет ли он такие же результаты, как и тест хи-квадрат на больших выборках?
Попробую на них ответить.

Вообще, тест Фишера применяется тогда же, когда можно применить тест хи-квадрат: есть несколько категориальных переменных, каждая из которых может принимать несколько значений. В отличие от теста хи-квадрат тест Фишера может применяться на достаточно малых данных или когда выборка не сбалансирована.

Как и почему работает тест Фишера?

Тест Фишера опирается на гипергеометрическое распределение. Напомню, что такое гипергеометрическое распределение. Это дискретное вероятностное распределение, которое моделирует вероятность k успехов в n извлечений объекта из выборки, при этом извлечения происходят без возвращения, всего в выборке N объектов, K объектов с искомой фичей, и каждое извлечение является либо успехом либо неудачей.
Давайте представим, что мы проводим некоторый эксперимент. К примеру, смотрим, насколько курение влияет на вероятность рака легких. Если мы знаем, сколько у нас всего курильщиков/некурильщиков, сколько среди них людей с раком легких/без рака легких, то мы можем смоделировать эту проблему с помощью гипергеометрического распределения. Вся выборка у нас будет размера N (курильщики + некурильщики), K объектов с искомой фичей (рак легких), и в первой клетке таблицы сопряжения мы получаем k успехов (курильщики с раком легких). Тест Фишера же состоит в том, чтобы посчитать, насколько вероятен текущий или более экстремальный вариант данных (к примеру, получить больше курильщиков с раком легких).

Почему он называется точным?

Тест называется точным, потому что ситуация точно моделируется гипергеометрическим распределение. Хи-критерий, к примеру, является приближенным, потому что выборочное распределение стремится к распределению Хи-квадрат с увеличением размера выборки.

Какие границы его применимости?

Тест Фишера является вычислительно сложным из-за присутствия факториалов. Однако, сейчас с помощью приближенных методов можно вычислять критерий Фишера для таблиц любых размеров. Дополнительно, стоит помнить, что критерий Фишера дает консервативные оценки, поэтому иногда применяют корректировку, к примеру, Mid-P correction.

150 views11:58