ROC-AUC (Receiver Operating Characteristic - Area Under the Curve) и Accuracy (точность) - это две разные метрики, используемые для оценки качества моделей машинного обучения.
Accuracy - это мера того, насколько хорошо модель предсказывает правильные ответы. Он показывает процент правильных ответов, которые модель дает на тестовом наборе данных. Например, если у вас есть 100 тестовых данных, и модель правильно классифицирует 85 из них, то точность модели будет равна 85%.
ROC-AUC, с другой стороны, измеряет, насколько хорошо модель отделяет положительные и отрицательные случаи. Она оценивает способность модели различать два класса и вычисляет площадь под кривой приемника операционной характеристики (ROC curve), построенной на основе отношения ложных положительных и ложных отрицательных результатов. Значение ROC-AUC находится в диапазоне от 0,0 до 1,0, где более высокие значения указывают на более высокое качество модели.
https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
Метод Shapley основывается на теории коалиционных игр и позволяет определить, какой вклад вносят каждый признак в прогноз модели с учетом объектов. Он учитывает взаимодействия между признаками и позволяет установить относительную важность каждого признака в зависимости от его вклада в конечный результат.
Feature importance, с другой стороны, не учитывает взаимодействия между признаками, а лишь определяет, насколько сильно каждый признак влияет на конечный результат. Эта метрика может быть вычислена разными способами, например, с помощью моделей, встроенных в библиотеки машинного обучения, или с помощью пермутационного тестирования.
Таким образом, метод Shapley более точен, потому что он учитывает взаимодействия между признаками, но он также может быть более сложен в вычислении, чем feature importance. Feature importance может быть более простым подходом, но может дать менее точные результаты, особенно если есть сильные взаимодействия между признаками.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
1. Удаление проблемных данных: если проблемные данные составляют небольшую долю от общего объема данных, то их можно просто удалить из датасета. Однако, если их много, это может привести к уменьшению объема данных, что может негативно сказаться на результате обучения. В этом случае рекомендуется не удалять данные, а записать их в отдельный датасет, возможно потом они понадобятся в какой-то части или удасться их восстановить.
2. Заполнение пропущенных значений: другой способ - это заполнение пропущенных значений средним или медианным значением. Если в датасете много пропущенных данных, то можно использовать методы, такие как KNN-заполнение.
3. Кодирование пропущенных значений: вместо удаления или заполнения пропущенных значений можно закодировать их как отдельные значения, которые будут использоваться в качестве фактора в обучении модели.
4. Использование алгоритмов, устойчивых к пропущенным данным: некоторые модели машинного обучения, например, случайный лес, являются устойчивыми к пропущенным данным, что позволяет использовать такие данные без необходимости их предварительной обработки.
https://habr.com/ru/articles/663414/
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM