Библиотека собеса по Data Science | вопросы с собеседований

🤓

Существуют ли разные стратегии калибровки (преобразования «сырых» выходов модели в хорошо откалиброванные вероятности) для параметрических и непараметрических моделей

Да, подходы к калибровке отличаются в зависимости от типа модели.

Для непараметрических моделей (например, k-NN) вероятность часто аппроксимируется долей соседей каждого класса среди ближайших k точек. Такая оценка может быть шумной, особенно в высокоразмерных или разреженных данных. Для улучшения калибровки применяют изотоническую регрессию или другие постобработки, которые отображают эти частотные оценки в более гладкие вероятности.

ℹ️ При малых k или сильном дисбалансе классов возможны крайние вероятности (например, 0/5 или 5/5), что ухудшает калибровку. В таких случаях полезно использовать сглаживание, например, добавляя псевдосчётчики (Laplace smoothing).

🔥 Также важно учитывать, что непараметрические модели формируют вероятности локально, и структура окрестностей может сильно меняться. Иногда стоит нормализовать эти локальные области или использовать специализированные непараметрические методы оценки плотности (например, оценку плотности ядром), после чего уже применять калибровку.

ℹ️ Для параметрических моделей (например, логистической регрессии) исходные вероятности обычно уже калиброваны, но при переобучении или при работе с несбалансированными данными также применяют методы вроде Platt scaling или изотонической регрессии.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

282 viewsedited 19:29

Библиотека собеса по Data Science | вопросы с собеседований

🐁

Что делать, если вас интересует только определённая область ROC-кривой

В некоторых задачах важна не вся ROC-кривая, а только определённая её часть — например, области с очень малым уровнем ложноположительных срабатываний (FPR) или с очень высокой полнотой (TPR).

🔹 Частичная AUC (Partial AUC):
Можно вычислить AUC только для заданного диапазона FPR, например от 0 до 0.1. Это покажет, насколько хорошо модель работает именно в интересующей области.

🔹 Специализированные метрики:
Иногда вместо полной AUC используют показатели вроде Precision при фиксированном Recall или TPR при заданном FPR — они позволяют оценить качество модели именно в том диапазоне, который критичен для практического применения.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

110 viewsedited 18:31

About

Blog

Apps

Platform