Школа Больших Данных

#ML
🎥Разработка ML решений: от шага сбора необходимых данных до интеграции ml-модели в продуктивную среду. И про инструменты командной разработки: git, mlflow, dvc.
@BigDataSchool_ru
https://www.youtube.com/watch?v=STF-EZvmdAM

YouTube

Разработка ML решений - Курсы "Школы Больших Данных" г. Москва

В данном курсе изучаются подходы к разработке ML-решений. В процессе обучения слушатели познакомятся с каждым шагом создания ML-продукта от шага сбора необходимых данных до интеграции ml-модели в продуктивную среду. Слушатели познакомятся с инструментами…

84 views08:59

🖥наш САЙТ

Школа Больших Данных

#ML #API
🎥Готовим шаблон для сервиса, который предоставляет API вызова модели машинного обучения. Также рассмотрим простейший пример приложения на базе web-сервера flask.
@BigDataSchool_ru
https://www.youtube.com/watch?v=YYOuTkqey7E

YouTube

Flask “hello world”, flask для сервиса вызова модели машинного обучения

В данном видео приводим простейший пример приложения на базе web-сервера flask. Подготавливаем шаблон для сервиса, который предоставляет API вызова модели машинного обучения.

Ссылка на код:

Блокнот использования модели: https://gist.github.com/MachineL…

77 views07:00

🖥наш САЙТ

Школа Больших Данных

#ML #flask
🎥Пишем простейший API web-сервера на базе flask. Используем модель классификации метод опорных векторов на учебном датасете Iris.
@BigDataSchool_ru
https://www.youtube.com/watch?v=Ug6CbE9MfBw

YouTube

API сервис c моделью машинного обучения на базе сервера flask - Курсы "Школы Больших Данных" Москва

В данном видео пишем простейший API web-сервера на базе flask. Используем модель классификации метод опорных векторов на учебном датасете Iris.

Ссылка на код:

Блокнот использования модели: https://gist.github.com/MachineLearningIsEasy/48b579e2ab413d85ec0205d894102d57…

74 views07:00

🖥наш САЙТ

Школа Больших Данных

#Kafka #ML
👀Пример построения интеллектуальными конвейера потоковой обработки видео с Apache Kafka и алгоритмами машинного обучения. Далее: зачем для этого нужен протокол RTSP, что такое библиотека Sarama и как интегрировать алгоритмы машинного/глубокого обучения в систему видеоаналитики реального времени.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/real-time-streaming-pipeline-with-kafka-sarama-rtsp-and-ml.html

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Связь библиотеки Sarama с Apache Kafka, протокол RTSP и интеграция ML-алгоритмов в конвейер видеоаналитики в реальном времени: пример

82 views08:12

🖥наш САЙТ

Школа Больших Данных

#mlflow #ML
📽Рассмотрим, как развернуть mlflow локально. Для хранения данных используем локально развернутую базу данных postgresql, для хранения артефактов используем aws s3 bucket.
@BigDataSchool_ru
https://www.youtube.com/watch?v=GW0bqiNJm0M

YouTube

Разворачиваем mlflow локально вместе с базой данных postgresql и aws s3 хранилищем

В данном видео демонстрируется как развернуть mlflow локально. Для хранения данных используем локально развернутую базу данных postgresql, для хранения артефактов используем aws s3 bucket.

Ссылка на код:
https://github.com/MachineLearningIsEasy/mlflow_local…

77 views07:00

🖥наш САЙТ

Школа Больших Данных

#mlflow #ML
🔎Рассматриваем пример использования mlflow для трекинга ml экспериментов. Обучаем модели из библиотеки sklearn. Пример построен на учебном датасете wine.
@BigDataSchool_ru
https://www.youtube.com/watch?v=2cSnIP3aEVw

YouTube

Пример использования mlflow tracking на учебном датасете wine - "Школа Больших Данных" г. Москва

В данном видео приведен пример использования mlflow для трекинга ml экспериментов. Обучаем модели из библиотеки sklearn. Пример построен на учебном датасете wine.

Ссылка на код:
https://gist.github.com/MachineLearningIsEasy/67fd345ac14017ccd9e21d51ac3f3723…

71 views07:00

🖥наш САЙТ

Школа Больших Данных

#mlflow #ML
👀Рассмотрим пример использования функции автоматического логирования экспериментов в mlflow. Также: демонстрация функционала модуля mlflow models.
@BigDataSchool_ru
https://www.youtube.com/watch?v=__kTsb6K0Ic

YouTube

Пример использования автоматического логирования экспериментов в mlflow и mlflow models

В данном видео приведен пример использования функции автоматического логирования экспериментов в mlflow. Также демонстрируется функционал модуля mlflow models.

Ссылка на код: https://gist.github.com/MachineLearningIsEasy/8614de5f3de88ec194b09d4d4c6d7c48…

70 views07:00

🖥наш САЙТ

Школа Больших Данных

#mlflow #ML
🔒Рассмотрим, как развернуть mlflow локально. Для хранения данных используем локально развернутую базу данных postgresql, для хранения артефактов используем aws s3 bucket.
@BigDataSchool_ru
https://www.youtube.com/watch?v=GW0bqiNJm0M

YouTube

Разворачиваем mlflow локально вместе с базой данных postgresql и aws s3 хранилищем

84 views07:00

🖥наш САЙТ

Школа Больших Данных

#mlflow #ML
🎥Рассматриваем пример использования mlflow для трекинга ml экспериментов. Обучаем модели из библиотеки sklearn. Пример построен на учебном датасете wine.
@BigDataSchool_ru
https://www.youtube.com/watch?v=2cSnIP3aEVw

YouTube

Пример использования mlflow tracking на учебном датасете wine - "Школа Больших Данных" г. Москва

84 views07:00

🖥наш САЙТ

Школа Больших Данных

YouTube

Flask “hello world”, flask для сервиса вызова модели машинного обучения

98 views07:00

🖥наш САЙТ

Школа Больших Данных

#ML #flask
⛓Пишем простейший API web-сервера на базе flask. Используем модель классификации метод опорных векторов на учебном датасете Iris.
@BigDataSchool_ru
https://www.youtube.com/watch?v=Ug6CbE9MfBw

YouTube

API сервис c моделью машинного обучения на базе сервера flask - Курсы "Школы Больших Данных" Москва

88 views07:00

🖥наш САЙТ

Школа Больших Данных

#Spark #ML
🥪Про модель классификации многослойного персептрона в распределенном Big Data фреймворке Apache Spark. Далее про особенности работы алгоритма многослойного персептрона, благодаря которому Apache Spark имеет возможность Big Data анализа и классификации в распределенной среде.
@BigDataSchool_ru
https://spark-school.ru/blogs/spark-multilayer-perceptron/

Практические курсы по Apache Spark для аналитиков, разработчиков, администраторов Big Data

Как устроена модель многослойного персептрона в Spark

Что такое модель многослойного персептрона и как она работает в Spark: особенности классификации, примеры кода - обучение Big Data Science

84 views07:00

🖥наш САЙТ

Школа Больших Данных

#ML #DataScience
🧬Как реализовать один из важнейших этапов машинного обучения – Feature Engineering.
Далее: как генерировать признаки для ML-модели с помощью SQL, напрямую обращаясь к источникам данных и хранилищам фич, а также что такое Apache Hivemall и как это работает с Hive и Spark.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/feature-engineering-on-sql.html

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Как организовать Feature Engineering на SQL-запросах: инженерия Data Science

В рамках наших курсов для дата-инженеров и специалистов в области Data Science, сегодня рассм

89 views07:00

🖥наш САЙТ

Школа Больших Данных

#NLP #ML
🎈Нормализация текста является предварительным этапом в NLP. Почти каждая библиотека предоставляет различные методы нормализации. Поговорим о двух библиотеках spaCy и NLTK, о том как в них проводится нормализация и кто из них быстрее в этом деле.
@BigDataSchool_ru
https://python-school.ru/blog/text-normalization-spacy-vs-nltk/

Корпоративные курсы Python в Big Data и Machine Learning

Как нормализовать текст в spaCy и NLTK

Нормализация текста в spaCy и NLTK: кто делает это быстрее, в чем различие между библиотеками, лемматизация, стемминг, удаление стоп-слов

93 views07:00

🖥наш САЙТ

Школа Больших Данных

#ML @BigDataSchool_ru
🎬Сегодня в видео затрагиваем тему интерпретации моделей машинного обучения.
Показываем на учебном примере каким образом понять важность входных параметров модели для линейной регрессии и для дерева решений.
https://youtu.be/0hAP92RRfHA

YouTube

Интерпретация простых моделей машинного обучения

В данном видео затрагиваем тему интерпретации моделей машинного обучения. Показываем на учебном примере каким образом понять важность входных параметров модели для линейной регрессии и для дерева решений.

Ссылка на код: https://github.com/BigDataSchoolRU/ml…

128 views09:08

🖥️наш САЙТ

Школа Больших Данных

#DataScience #DevOps #ML #статьи
🪤Скрытый технический долг в ML-системах.

Технический долг - дополнительные затраты, возникающие в долгосрочной перспективе, с которыми сталкивается команда, в результате выбора простых и быстрых вариантов вместо принятия решений, более правильных в долгосрочной перспективе.
Для систем Machine Learning технический долг существует на системном уровне, а не на уровне кода. Поэтому традиционного подхода к техническому долгу, как и в разработке ПО, недостаточно для его устранения: нужны подходы, специфичные для ML.
Технический долг растет при использовании данных не по назначению, что в классической разработке ПО решается ограничением видимости. В Machine Learning также помогает предоставление доступа к данным и моделям только определенным пользователям и командам, а также тщательное управление этими разрешениями.

Далее читайте подробно про техдолг в проектах Machine Learning.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/mlops-to-eliminate-technical-debt-in-ml-projects.html

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

MLOps для устранения техдолга в проектах Machine Learning

Почему в ML-проектах накапливается технический долг и как MLOps устраняет проблемы разработки и развертывания систем Machine Learning

133 views09:09

🖥️наш САЙТ

Школа Больших Данных

#ML #Python #статьи
🤖L1 и L2 регуляризация
В машинном обучении и Data science, регуляризация является важной техникой для управления переобучением модели. Она помогает избежать слишком сложной модели, которая может хорошо подстроиться под обучающие данные, но будет работать плохо на новых данных.
Рассмотрим два основных типа регуляризации: L1 и L2.
Как они работают, и как их можно использовать в Python для создания более надежных моделей в data science.
🔹L1 регуляризация также известна как Lasso (Least Absolute Shrinkage and Selection Operator) регуляризация. Она основана на добавлении штрафа, равного абсолютному значению коэффициентов модели.
L1 регуляризация склонна к отбору признаков, так как она может уменьшить веса признаков до нуля. Это позволяет убрать неинформативные признаки из модели, что может уменьшить сложность модели и улучшить ее обобщающую способность.
🔹Помимо L1 регуляризации, существует также L2 регуляризация (иногда называемая Ridge регуляризацией), которая также применяется в линейной регрессии и многих других моделях.
L2 регуляризация так же добавляет к оптимизационной функции модели штрафную функцию.
Кроме того, L2 регуляризация может помочь в предотвращении переобучения и улучшении обобщающей способности модели, а также в уменьшении влияния шума в данных на модель.

Далее: Реализация L1 и L2 в цикле обучения модели.
@BigDataSchool_ru
https://python-school.ru/blog/regularization-l1-l2/

Корпоративные курсы Python в Big Data и Machine Learning

L1 и L2 регуляризация - Корпоративные курсы Python в Big Data и Machine Learning

В прошлой статье мы реализовывали линейную регрессию, в этой разберемся что такое регуляризация модели машинного обучения и добавим её в обучение линейной регрессии на Python из прошлых статей. L1 и L2 регуляризация В машинном обучении и Data science, регуляризация…

137 views09:01

🖥️наш САЙТ

Школа Больших Данных

#MLOps #ML #статьи
👁️‍🗨️Что общего у FastAPI с BentoML и при чем здесь MLOps
С точки зрения промышленной эксплуатации, в проектах машинного обучения следует фокусироваться не только и не столько на точности самих алгоритмов Machine Learning. Огромного внимания требует автоматизация рутинных процессов развертывания и сопровождения ML-моделей, что превратилось в целую концепцию под названием MLOps. Поскольку это направление инженерной науки о данных еще довольно молодое, в нем постоянно появляются новые идеи и инструменты.
В частности, одним из самых популярных MLOps-средств считается FastAPI – высокопроизводительный веб-фреймворк для создания API с помощью стандартной аннотации типов Python 3.6+. ML-инженеры часто используют его для развертывания своих моделей в качестве сервисов API.
Впрочем, FastAPI используется не только в ML-проектах. Этот фреймворк отлично подходит для быстрого создания любых REST-приложений на Python. Его дополнительным преимуществом является автогенерация документации API в формате Swagger (открытый стандарт OpenAPI 3) и JSON Schema. Пример создания такого REST API с тестированием методов в Swagger UI мы описывали в этой статье на блоге нашей Школы прикладного бизнес-анализа.
Возвращаясь к тему MLOps, отметим, что способность FastAPI генерировать документацию поддерживает идеи MLOps, а потому этот фреймворк можно отнести к набору инструментальных средств MLOps-Инженера. Однако, это далеко не единственный инструмент этой категории.
Сюда же относится BentoML – открытая библиотека для быстрого создания MVP систем машинного обучения. Она упрощает создание API методов для доступа к обученной ML-модели и совместима со всеми крупными фреймворками: Tensorflow, Keras, PyTorch, XGBoost, scikit-learn и fastai.
BentoML поддерживает адаптивную микропакетную обработку данных, а также предоставляет функции управления моделью и ее развертывания. BentoML отлично реализует идеи MLOps, позволяя разработчикам ML-моделей использовать лучшие практики DevOps. Специалисты по Data Science и инженеры Machine Learning используют BentoML для ускорения и стандартизации процесса запуска моделей в производство, создавая масштабируемые и высокопроизводительные сервисы машинного обучения. Библиотека поддерживает непрерывное развертывание, мониторинг и сопровождение сервисов в производственной среде. Пример практического использования BentoML мы рассматривали в этом материале.
Отметим общие функции FastAPI и BentoML с точки зрения MLOps:
✅они оба основаны на Starlette – легковесной ASGI-платформе для создания асинхронных веб-сервисов на Python;
✅автоматическая документация в Swagger UI согласно открытому стандарту OpenAPI 3;
✅асинхронные запросы, что позволяет обрабатывать несколько запросов одновременно, а не выполнять их линейно.
Несмотря на схожесть в этих фундаментальных вопросах, ключевые различия между BentoML и FastAPI для MLOps заключаются в сценариях использования, характерных для разработки и развертывания систем машинного обучения, что мы и рассмотрим далее.

@BigDataSchool_ru
https://www.bigdataschool.ru/blog/fastapi-versus-bentoml-for-mlops.html

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

FastAPI versus BentoML: что лучше для MLOps и почему

Что общего у FastAPI с BentoML, чем они отличаются и почему только один из них является MLOps-инструментом для API сервисов Machine Learning

143 views11:50

🖥️наш САЙТ

Школа Больших Данных

#bigdata #ML #статьи
🏘️Что такое метод ближайших соседей: ликбез по Machine Learning
В проектах ML и приложениях интеллектуального анализа данных, а также в пространственных и мультимедийных системах часто используется метод ближайших соседей (kNN, k-Nearest Neighbor).
Он представляет собой простейший метрический классификатор, основанный на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки. Этот метод очень чувствителен к диапазону изменений входных переменных. Поэтому перед его применением входные данные следует нормализовать, приведя числовые значения признаков к одинаковой области изменения.
Можно сказать, что метод ближайших соседей является одним из простейших алгоритмов контролируемого машинного обучения, который сохраняет все доступные данные и классифицирует новую точку данных на основе сходства. Будучи непараметрическим алгоритмом, он не делает никаких предположений относительно базовых данных и не обучается сразу на обучающем наборе, а сохраняет его и во время классификации выполняет действие над набором данных.
С математической точки зрения kNN представляет собой классификацию новой точки данных на основании имеющихся k точек, расположенных ближе всего к ней. Благодаря тому, что kNN-модель не выводит дискриминационную функцию из обучающих данных, а только хранит их и учится на этом датасете только во время прогнозирования в реальном времени, метод ближайших соседей работает очень быстро. Он намного быстрее, чем другие алгоритмы Machine Learning, такие как метод опорных векторов (SVM) или линейная регрессия.
Еще одним преимуществом kNN является простота добавления новых данных, поскольку алгоритм не требует обучения перед тем, как делать прогнозы. Наконец, он очень прост в реализации, для которой нужны только 2 параметра: значение k и мера расстояния, например, евклидова или манхэттенская.
Однако, метод ближайших соседей не очень хорошо работает с большими наборами данных из-за высокой стоимости вычислений расстояния между новой точкой и каждой существующей и снижения производительности алгоритма. Также kNN плохо работает с данными большого размера, потому что при большом количестве измерений становится сложно вычислить расстояние в каждом из них. Как уже было отмечено ранее, kNN чувствителен к шуму в наборе данных, пропускам и выбросам. Необходимо провести предварительную подготовку, в частности, заполнить пропуски, удалить выбросы и нормализовать обучающий датасет.
Из наиболее понятных примеров реального применения метода ближайших соседей в практических приложениях можно отметить обнаружение мошеннических транзакций по кредитным картам и разработку рекомендательных систем, чтобы советовать пользователям товары на основе их предпочтений. Поскольку в этих случаях идет обработка огромного количества данных, целесообразно применять kNN-метод с технологиями Big Data, например, Apache HBase, что мы и рассмотрим далее

@BigDataSchool_ru
https://www.bigdataschool.ru/blog/knn-algorithm-on-data-in-hbase-for-machine-learning.html

Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

Преимущества Apache HBase для метода ближайших соседей

Что такое метод ближайших соседей, где и как используется этот алгоритм машинного обучения, и как Apache HBase повышает его эффективность

113 views12:32

🖥️наш САЙТ

Школа Больших Данных

#ML #статьи
Развертывание кода

В большинстве случаев Databricks рекомендует применять подход с развертыванием кода, когда код для обучения моделей разрабатывается в среде разработки.
Тот же код перемещается в промежуточную (тестовую), а затем в рабочую среду.

Модель обучается в каждой среде: сначала в среде разработки, затем в тестовой среде на ограниченном подмножестве данных в рамках интеграционных тестов, и, наконец, в производственной среде на полных производственных данных для создания окончательной модели.

Основными преимуществами этого подхода являются следующие:
✅возможность обучать модель на рабочих данных в производственной среде, что особенно важно для компаний, где доступ к производственным данным ограничен;
✅безопасное автоматическое переобучение модели, поскольку обучающий код проверяется, тестируется и утверждается для производства;
✅одинаковая схема кода обучения модели, включая этап интеграционного тестирования.

Однако, этот подход предполагает высокий порог входа для специалистов по данным и наличие предопределенных шаблонов для проектов и рабочих процессов.
Кроме того, такой паттерн развертывания основан на необходимости предварительного просмотра результатов обучения в производственной среде специалистами по Data Science, поскольку они обладают знаниями для выявления и устранения проблем, связанных с машинным обучением. Поэтому если необходимо, чтобы модель была обучена на всем производственном наборе данных, можно использовать гибридный подход, развернув код в промежуточной среде, обучив модель, а затем развернув ее в рабочей среде.

Такой подход снижает затраты на обучение в производственной среде, но увеличивает эксплуатационные расходы на этапе подготовки.

Альтернативой является подход с развертыванием моделей, который мы разберем далее.

@BigDataSchool_ru
https://bigdataschool.ru/blog/mlops-deployment-patterns-on-databricks-lakehouse-platform.html

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Как развернуть ML-модель в production: шаблоны эффективного MLOps от Databricks

Чем полезна платформа Databricks Lakehouse для машинного обучения и как на ней развернуть ML-систему в production, применив практики MLOps

140 views08:20

🖥️наш САЙТ

About

Blog

Apps

Platform