Datalytics

Forwarded from Пристанище Дата Сайентиста

pycaret - библиотека для автоматизации рабочих процессов машинного обучения

PyCaret одна из самых простых AutoML библиотек. AutoML — это процесс автоматизации сквозного процесса применения машинного обучения. AutoML бибилиотеки позволяют ускорить цикл экспериментов и тестирование гипотез.

PyCaret по сути, оболочка Python для нескольких библиотек и фреймворков машинного обучения, таких как scikit-learn, XGBoost, LightGBM, CatBoost, spaCy, Optuna, Hyperopt, Ray и многих других. Этот инструмент может заменить сотни строк кода всего несколькими.

С помощью этой библиотеки можно решать следующие задачи:
- Классификация
- Регрессия
- Кластеризация
- Детекция Аномалий
- Natural Language Processing
- Подготовка ассоциативных правил

Установка:
pip install pycaret

Пример использования:
from pycaret.classification import * # импортируем pycaret classification методы

exp = setup(data = data, target = 'Species', session_id=77 ) # указываем данные, таргет и random seed

compare_models() # сравним различные модели метриками - accuracy,F1 и другими
nb_model = create_model('nb', fold = 10) # создаем модель Naives Byes на 10 фолдах
plot_model(nb_model, plot = 'auc') # построим ROC AUC
plot_model(nb_model, plot = 'confusion_matrix') # построим confusion matrix

new_prediction = predict_model(nb_model, data=data_unseen) # делаем предсказания на новых данных

Из еще крутых возможностей PyCaret

Деплой моделей на AWS S3:
deploy_model(final_lr, model_name = 'lr_aws', platform = 'aws', authentication = { 'bucket' : 'pycaret-test' })

Логирование экспериментов:
from pycaret.classification import *
clf1 = setup(data, target = 'Class variable', log_experiment = True, experiment_name = 'diabetes1')
top5 = compare_models()
logs = get_logs(save=True)

Работа с признаками:
reg1 = setup(data = insurance, target = 'charges', feature_interaction = True, feature_ratio = True)
reg1 = setup(data = insurance, target = 'charges', trigonometry_features = True)
clf1 = setup(data = juice, target = 'Purchase', polynomial_features = True)

clf1 = setup(data = credit, target = 'default', group_features = ['BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6'])

Рекомендую обратить внимание на эту библиотеку. Особенно если построение ML моделей не ваше основная работа.

👍2

3.6K views17:41