#ml #classification #imblance #generation #synthetic #controlled #calibration
АНОНС
Работа с синтетическими данными - контролируемый эксперимент, позволяющий проникнуть мыслью в глубины DS процесса. У меня и раньше возникали подозрения, что общепринятые метрики оценки качества классификации в условиях дисбаланса классов нехороши. Сегодня я подкрепляю эти соображения численными экспериментами и предлагаю метрику классификации, хорошо дискриминирующую качественные модели от никчёмных, в том числе при несбалансированных классах и даже при слабой принципиальной прогнозируемости (например, когда львиная доля влияния на таргет осуществляется недоступными для наблюдения факторами из неизвестного домена).
АНОНС
Работа с синтетическими данными - контролируемый эксперимент, позволяющий проникнуть мыслью в глубины DS процесса. У меня и раньше возникали подозрения, что общепринятые метрики оценки качества классификации в условиях дисбаланса классов нехороши. Сегодня я подкрепляю эти соображения численными экспериментами и предлагаю метрику классификации, хорошо дискриминирующую качественные модели от никчёмных, в том числе при несбалансированных классах и даже при слабой принципиальной прогнозируемости (например, когда львиная доля влияния на таргет осуществляется недоступными для наблюдения факторами из неизвестного домена).
✍2💅1
#ml #classification #imblance #generation #synthetic #controlled #calibration
In this article I’d like to share with you my findings about inconsistency of traditional ML metrics when it comes to imbalanced binary classification, and propose a superior metric from calibration domain that works well and possesses high discriminative power not only in cases of class imbalance, but also when the predictability itself is fundamentally weak (i.e., when factors most predictive to the target are unknown or not reachable, and everything we can hope is to explain at least some part of target’s variation with help of modelling).
https://medium.com/@fingoldo/why-rp-roc-auc-should-not-be-your-first-choice-metrics-for-classification-tasks-8ed516cec1ee
In this article I’d like to share with you my findings about inconsistency of traditional ML metrics when it comes to imbalanced binary classification, and propose a superior metric from calibration domain that works well and possesses high discriminative power not only in cases of class imbalance, but also when the predictability itself is fundamentally weak (i.e., when factors most predictive to the target are unknown or not reachable, and everything we can hope is to explain at least some part of target’s variation with help of modelling).
https://medium.com/@fingoldo/why-rp-roc-auc-should-not-be-your-first-choice-metrics-for-classification-tasks-8ed516cec1ee
Medium
Why PR/ROC AUC should NOT be your first choice metrics for classification tasks
In this article I’d like to share with you my findings about inconsistency of traditional ML metrics when it comes to imbalanced binary…
🔥1