1/ В чем разница обучение с учетелем и обучение без учителя ? (Explain the difference between supervised and unsupervised machine learning ?)
Основное отличие между обучением с учителем и обучением без учителя заключается в наличии или отсутствии структурированной информации о правильных ответах на заданные вопросы.
- Обучение с учителем: в процессе обучения существует учитель (например, преподаватель, специалист в определенной области), который предоставляет учащимся структурированные данные и правильные ответы на вопросы. Информация в этом случае может быть представлена в форме классифицированных данных, меток, разметки объектов и т.д. Точность и эффективность обучения с учителем высоки, но этот подход зависит от качества и количества обучающих данных.
- Обучение без учителя: в этом подходе информация для обучения не размечена, то есть нет правильных ответов на вопросы. Обучающая система должна самостоятельно искать закономерности и структуры данных. Обучение без учителя используется для задач кластеризации, сокращения размерности, обнаружения аномалий и т.д. Точность и эффективность обучения без учителя ниже, но его преимущество заключается в том, что система сама формирует кластеры и группы данных, что может открыть новые пути для анализа и использования данных.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
2/ Что такое параметрические/непараметрические модели машинного обучения и приведите примеры ?
Параметрические модели машинного обучения - это модели, в которых число параметров заранее определено и не зависит от размера обучающей выборки. Примеры параметрических моделей машинного обучения включают линейную регрессию, логистическую регрессию, метод опорных векторов и некоторые модели на основе искусственных нейронных сетей.
С другой стороны, непараметрические модели машинного обучения не ограничены заранее определенным числом параметров, что позволяет более гибко обучаться на основе сложных данных и отображать непрерывные функции. Примеры непараметрических моделей машинного обучения включают решающие деревья, случайные леса и метод k-ближайших соседей.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
2/ В чем разница между классификацией и регрессией ?
- Классификация используется для прогнозирования принадлежности объекта к определенному классу. Например, классификация может быть использована для определения, является ли электронный письмо "спамом" или "не спамом". Она обычно основана на обучении алгоритма на уже размеченных данных, чтобы он мог прогнозировать класс новых данных.
- Регрессия, с другой стороны, используется для прогнозирования непрерывного числового значения. Например, регрессия может использоваться для прогнозирования цены на недвижимость на основе ее характеристик, таких как площадь, количество комнат и т.д. Она также основана на обучении алгоритма на уже размеченных данных, чтобы он мог прогнозировать значения для новых данных.
Таким образом, основная разница между классификацией и регрессией заключается в том, что классификация используется для прогнозирования принадлежности к классу, тогда как регрессия используется для прогнозирования непрерывных значений.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
4/ Что такое переобучение и как с ним борются при разработке моделей машинного обучения ?
1. Регуляризация: добавление к функции ошибки дополнительных слагаемых, которые штрафуют большие веса признаков. Это ограничивает сложность модели и заставляет ее обобщать лучше.
2. Сокращение количества признаков: удаление наименее значимых признаков, которые могут увеличивать шум и делать модель более сложной, что ведет к переобучению.
3. Кросс-валидация: разделение тренировочных данных на несколько частей и проверка, как модель работает на каждой части. Это позволяет определить, возникает ли переобучение и настраивать параметры модели для лучшей обобщающей способности.
4. Добавление шума: добавление случайного шума в данные может помочь модели лучше обобщать знания и избежать переобучения.
5. Использование алгоритмов, которые устойчивы к переобучению, таких как случайный лес, градиентный бустинг или нейронные сети с регуляризацией.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precision #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
ROC-AUC (Receiver Operating Characteristic - Area Under the Curve) и Accuracy (точность) - это две разные метрики, используемые для оценки качества моделей машинного обучения.
Accuracy - это мера того, насколько хорошо модель предсказывает правильные ответы. Он показывает процент правильных ответов, которые модель дает на тестовом наборе данных. Например, если у вас есть 100 тестовых данных, и модель правильно классифицирует 85 из них, то точность модели будет равна 85%.
ROC-AUC, с другой стороны, измеряет, насколько хорошо модель отделяет положительные и отрицательные случаи. Она оценивает способность модели различать два класса и вычисляет площадь под кривой приемника операционной характеристики (ROC curve), построенной на основе отношения ложных положительных и ложных отрицательных результатов. Значение ROC-AUC находится в диапазоне от 0,0 до 1,0, где более высокие значения указывают на более высокое качество модели.
https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
Метод Shapley основывается на теории коалиционных игр и позволяет определить, какой вклад вносят каждый признак в прогноз модели с учетом объектов. Он учитывает взаимодействия между признаками и позволяет установить относительную важность каждого признака в зависимости от его вклада в конечный результат.
Feature importance, с другой стороны, не учитывает взаимодействия между признаками, а лишь определяет, насколько сильно каждый признак влияет на конечный результат. Эта метрика может быть вычислена разными способами, например, с помощью моделей, встроенных в библиотеки машинного обучения, или с помощью пермутационного тестирования.
Таким образом, метод Shapley более точен, потому что он учитывает взаимодействия между признаками, но он также может быть более сложен в вычислении, чем feature importance. Feature importance может быть более простым подходом, но может дать менее точные результаты, особенно если есть сильные взаимодействия между признаками.
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
1. Удаление проблемных данных: если проблемные данные составляют небольшую долю от общего объема данных, то их можно просто удалить из датасета. Однако, если их много, это может привести к уменьшению объема данных, что может негативно сказаться на результате обучения. В этом случае рекомендуется не удалять данные, а записать их в отдельный датасет, возможно потом они понадобятся в какой-то части или удасться их восстановить.
2. Заполнение пропущенных значений: другой способ - это заполнение пропущенных значений средним или медианным значением. Если в датасете много пропущенных данных, то можно использовать методы, такие как KNN-заполнение.
3. Кодирование пропущенных значений: вместо удаления или заполнения пропущенных значений можно закодировать их как отдельные значения, которые будут использоваться в качестве фактора в обучении модели.
4. Использование алгоритмов, устойчивых к пропущенным данным: некоторые модели машинного обучения, например, случайный лес, являются устойчивыми к пропущенным данным, что позволяет использовать такие данные без необходимости их предварительной обработки.
https://habr.com/ru/articles/663414/
#work #ml #deep #learning #optimization #testing #data_science #model #analysis #coding #accuracy #precission #recall #score
Please open Telegram to view this post
VIEW IN TELEGRAM
🧭Аналитика статей по Машиному обучению №8
♻️Тема: Разработан искусственный интеллект для выявления раковых мутаций
〽️Разработан метод VarNet для выявления раковых мутаций с использованием искусственного интеллекта.
〽️Метод основан на глубоком обучении и разработан учеными из Сингапурского института генома.
〽️VarNet идентифицирует раковые мутации в ДНК внутри образцов опухоли с высоким уровнем точности.
〽️Искусственный интеллект позволяет VarNet обучаться на миллионах реальных и ложных раковых мутаций.
〽️Метод VarNet превосходит существующие алгоритмы идентификации мутаций по точности.
〽️Исходный код VarNet доступен онлайн для исследовательского сообщества.
〽️Методы искусственного интеллекта, такие как VarNet, могут предоставить врачам более точную информацию для принятия мер.
👉Ссылка: https://www.straitstimes.com/singapore/health/artificial-intelligence-developed-to-identify-cancer-mutations
#varnet #cancermutations #artificialintelligence #deeplearning #genomicinstitute #DNAmutations #tumor #accuracy #researchcommunity #doctors #precisionmedicine
♻️Тема: Разработан искусственный интеллект для выявления раковых мутаций
〽️Разработан метод VarNet для выявления раковых мутаций с использованием искусственного интеллекта.
〽️Метод основан на глубоком обучении и разработан учеными из Сингапурского института генома.
〽️VarNet идентифицирует раковые мутации в ДНК внутри образцов опухоли с высоким уровнем точности.
〽️Искусственный интеллект позволяет VarNet обучаться на миллионах реальных и ложных раковых мутаций.
〽️Метод VarNet превосходит существующие алгоритмы идентификации мутаций по точности.
〽️Исходный код VarNet доступен онлайн для исследовательского сообщества.
〽️Методы искусственного интеллекта, такие как VarNet, могут предоставить врачам более точную информацию для принятия мер.
👉Ссылка: https://www.straitstimes.com/singapore/health/artificial-intelligence-developed-to-identify-cancer-mutations
#varnet #cancermutations #artificialintelligence #deeplearning #genomicinstitute #DNAmutations #tumor #accuracy #researchcommunity #doctors #precisionmedicine