статИИстик

#среднийуровень
Про ROC-анализ.

ROC-кривая (результат ROC-анализа) - это дискриминационная функция, которая позволяет различать 2 класса между собой по значению одной количественной переменной. Таким образом ROC-кривая решает задачу классификации.

Метрики ROC-кривой: AUC (площадь под кривой), cut-off point (порог), TPR (частота истинно положительных результатов) или чувствительность, FPR (частота ложно положительных результатов) или 1-специфичность.

AUC - мера способности модели различать классы. Это вероятностная характеристика! Например, мы строим классификатор для постановки диагноза сахарный диабет по уровню сахара в крови (так не нужно делать, просто пример). Тогда AUC = 0.8 означает, что с вероятностью 80% пациент будет правильно отнесен к диабетикам, если у него действительно диабет и к здоровым, если он здоров. Чем выше AUC, тем лучше модель различает пациентов с заболеванием и без заболевания. AUC = 0.5 означает, что модель не имеет возможности разделения классов, 1 - идеальный классификатор.

Порог - точка на ROC-кривой формализующая принятие решений по классификации. Например, точка Юдена - значение переменной, соответствующее точке на ROC кривой наиболее удаленной от линии бесполезного теста, в которой TPR и специфичность одновременно максимальны. Порог - это искусственная величина, она может быть любой и выбираться эмпирически. Величина AUC не зависит от значения порога.

Польза ROC-анализа сильно преувеличена, а его применение зачастую спекулятивно.
💁‍♂️ Когда его можно применять:
Сравнение дискриминационных способностей (эффективности) прогностических моделей между собой для выбора лучшей из них.

🙅‍♂️ Когда его не нужно применять (это ошибка):
1. Создание однофакторных моделей
2. Поиск порогов для дихотомии переменных перед включением их в модель
3. Поиск порогов вероятностей для превращения регрессионных моделей в классификаторы

👍1

91 viewsedited 17:53