DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_5

🔠5/ Что такое ROC-AUC и Accuracy как их можно интерпретировать в рамках модели машинного обучения и в чем их разница ?

ROC-AUC (Receiver Operating Characteristic - Area Under the Curve) и Accuracy (точность) - это две разные метрики, используемые для оценки качества моделей машинного обучения.

Accuracy - это мера того, насколько хорошо модель предсказывает правильные ответы. Он показывает процент правильных ответов, которые модель дает на тестовом наборе данных. Например, если у вас есть 100 тестовых данных, и модель правильно классифицирует 85 из них, то точность модели будет равна 85%.

ROC-AUC, с другой стороны, измеряет, насколько хорошо модель отделяет положительные и отрицательные случаи. Она оценивает способность модели различать два класса и вычисляет площадь под кривой приемника операционной характеристики (ROC curve), построенной на основе отношения ложных положительных и ложных отрицательных результатов. Значение ROC-AUC находится в диапазоне от 0,0 до 1,0, где более высокие значения указывают на более высокое качество модели.

https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_6

🔠6/ В чем разница между Shapley и Feature Importance при анализе фичей разве они не одно и тоже делают ?

✔️Ответ: Метод Shapley и feature importance - это два разных подхода для определения важности признаков в задаче машинного обучения.

Метод Shapley основывается на теории коалиционных игр и позволяет определить, какой вклад вносят каждый признак в прогноз модели с учетом объектов. Он учитывает взаимодействия между признаками и позволяет установить относительную важность каждого признака в зависимости от его вклада в конечный результат.

Feature importance, с другой стороны, не учитывает взаимодействия между признаками, а лишь определяет, насколько сильно каждый признак влияет на конечный результат. Эта метрика может быть вычислена разными способами, например, с помощью моделей, встроенных в библиотеки машинного обучения, или с помощью пермутационного тестирования.

Таким образом, метод Shapley более точен, потому что он учитывает взаимодействия между признаками, но он также может быть более сложен в вычислении, чем feature importance. Feature importance может быть более простым подходом, но может дать менее точные результаты, особенно если есть сильные взаимодействия между признаками.

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
100 Вопросов по машинному обучению (Machine Learning) - Вопрос_7

🔠 Вопрос_7: Как справится с отсутствующими или поврежденными данными в датасете ?

✔️Ответ:

1. Удаление проблемных данных: если проблемные данные составляют небольшую долю от общего объема данных, то их можно просто удалить из датасета. Однако, если их много, это может привести к уменьшению объема данных, что может негативно сказаться на результате обучения. В этом случае рекомендуется не удалять данные, а записать их в отдельный датасет, возможно потом они понадобятся в какой-то части или удасться их восстановить.

2. Заполнение пропущенных значений: другой способ - это заполнение пропущенных значений средним или медианным значением. Если в датасете много пропущенных данных, то можно использовать методы, такие как KNN-заполнение.

3. Кодирование пропущенных значений: вместо удаления или заполнения пропущенных значений можно закодировать их как отдельные значения, которые будут использоваться в качестве фактора в обучении модели.

4. Использование алгоритмов, устойчивых к пропущенным данным: некоторые модели машинного обучения, например, случайный лес, являются устойчивыми к пропущенным данным, что позволяет использовать такие данные без необходимости их предварительной обработки.

https://habr.com/ru/articles/663414/

#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM