Хабр / ML & AI
481 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Мозг промышленного масштаба или как воплотить мечту в реальность?
В предыдущей статье мы рассмотрели различные типы нейросетей и обсудили, какие задачи можно решать с их помощью. Теперь рассмотрим задачу искусственного интеллекта с организационной и технической точки зрения. При работе над сложными проектами обычно вовлечена команда разработчиков и специалистов по обработке данных, у которых сразу возникают вопросы: как управлять проектом, совместно разрабатывать модель машинного обучения (Machine Learning model), проводить ее тестирование, каким образом синхронизировать код и результаты экспериментов? После разработки и оптимизации ML-модели возникает необходимость ее развертывания в промышленной среде. Все эти проблемы могут казаться менее увлекательными, чем решение самой задачи машинного обучения, но они имеют критическое значение для успешной реализации ML-проектов. В этой статье мы подробно рассмотрим жизненный цикл ML-сервиса от идеи до разработки и внедрения, а также инструменты и принципы, используемые на каждом этапе. Читать далее

#mlflow #mlops #mlops_tools #data_analysis #data_science #ml_модель #ml_инженер #docker #kubernetes #project_management | @habr_ai
Как мы прогнозируем объемы грузоперевозок на основе машинного обучения, используя MLflow

Привет, коллеги! Меня зовут Александр Кузьмичев, и я ведущий специалист по анализу данных в Первой грузовой компании. Мы с коллегами разработали «Прогнозатор» — инструмент для оценки объемов грузоперевозок между ж/д станциями. В основе лежит открытая платформа MLflow, и сегодня я расскажу, чем она нам помогает.

Фотография Ainur Khakimov / Unsplash

Читать дальше →

#первая_грузовая_компания #пгк #машинное_обучение #mlflow | @habr_ai
Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Привет, Хабр!

Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и большим данным. О решении одной такой задачи и будет этот рассказ.

Давайте представим, что у вас в компании большое количество моделей машинного обучения, каждая из которой может зависеть от нескольких десятков до нескольких тысяч признаков (фич). Причем разные модели могут зависеть от одних и тех же фич. Неожиданно случается несчастье, и одна из популярных фич ломается. Может произойти поломка на уровне подготовки данных, могут измениться внешние источники, отвалиться интеграции и прочее. Что делать с этим знанием? Конечно, бежать в продуктовые команды и кричать, что модели, которые зависят от этой фичи, могут деградировать, то есть их метрики качества могут снизиться. Вопрос только в том, какие модели могут деградировать и в какие команды бежать?

Напомним, в каких условиях мы анализируем данные и строим модели машинного обучения.

Читать далее

#mlops #openmetadata #airflow #mlflow | @habr_ai
Введение в MLflow

MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпараметры с помощью optuna, сравнивать модели и выбирать лучшие параметры. Также рассмотрим логирование моделей, использование их в разных форматах, упаковку проекта в MLproject и установку удаленного Tracking Server MLflow.

Читать далее

#python #mlflow #mlops #ml #machine_learning | @habr_ai
Как и зачем мы обучаем нейросеть распознавать рекламу мобильных операторов

В магистратуре ИТМО мы стараемся погружать студентов в работу реальных компаний ― через решение актуальных для бизнеса задач. Чаще всего это можно сделать на хакатонах, стажировках и с помощью организации корпоративных магистерских программ. Число таких проектов в университете с годами становится больше. Один из примеров ― совместный образовательный интенсив команды магистратуры ИТМО «Проектирование и разработка систем искусственного интеллекта» и IT-компании Nexign. Его участники разработали сервис для автоматической разметки рекламы на фото, который позволяет мобильному оператору упростить и ускорить работу с партнерскими торговыми точками. Под катом ― о деталях решения.

Читать далее

#хакатоны #nexign #итмо #машинное_обучение #сервисы #yolo #python #mlflow #университеты | @habr_ai
Как и зачем мы обучаем нейросеть распознавать рекламу мобильных операторов

В магистратуре ИТМО мы стараемся погружать студентов в работу реальных компаний ― через решение актуальных для бизнеса задач. Чаще всего это можно сделать на хакатонах, стажировках и с помощью организации корпоративных магистерских программ. Число таких проектов в университете с годами становится больше. Один из примеров ― совместный образовательный интенсив команды магистратуры ИТМО «Проектирование и разработка систем искусственного интеллекта» и IT-компании Nexign. Его участники разработали сервис для автоматической разметки рекламы на фото, который позволяет мобильному оператору упростить и ускорить работу с партнерскими торговыми точками. Под катом ― о деталях решения.

Читать далее

#хакатоны #nexign #итмо #машинное_обучение #сервисы #yolo #python #mlflow #университеты | @habr_ai
[Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.

Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌

Начнем!

Читать далее

#deepeval #mlflow #rag #ragas #llm #arize_ai | @habr_ai
MLflow для исследований: как систематизировать ML-эксперименты

Когда речь заходит о таких инструментах, как Airflow, MLflow или Docker, многие сразу представляют себе продакшен-среду, и новичков это может пугать. Однако на самом деле эти инструменты полезны не только в проде или крупных компаниях.

Сегодня я хочу рассказать об MLflow. Эта статья рассчитана на тех, кто только начинает свой путь в машинном обучении и обладает базовыми знаниями, а также на практикующих ученых в области ИИ, которые пока не знакомы с этим инструментом или сознательно им не пользуются.  Читать далее

#mlflow #машинное_обучение #искусственный_интеллект #эксперименты #логирование #трекинг #mlops | @habr_ai
Single Sign‑On для MLflow, Jupyterhub и Airflow: OIDC без костылей

Современные платформы для машинного обучения (ML)  — это комплексные системы. В их состав входит множество разнообразных инструментов — от средств обработки данных до систем развертывания моделей. А по мере увеличения масштаба и сложности таких платформ на первый план выходит вопрос эффективного управления доступом и безопасностью. Решить его можно, внедрив технологию Single Sign-On (SSO), которая позволяет пользователям получать доступ сразу ко всем компонентам платформы. 

Меня зовут Дмитрий Матушкин, я инженер платформы Nova Container Platfrom в Orion soft. В этой статье мы подробно рассмотрим процесс внедрения и настройки StarVault (аналог HashiCorp Vault, но все действия похожи на те, что нужно произвести в Vault) с использованием технологии OpenID Connect (OIDC) в качестве единой точки входа для популярных компонентов ML-платформы: MLflow, Airflow и JupyterHub.   

Все данные сервисы будут развернуты в кластере Kubernetes. Для удобства развертывания и настройки ванильного кластера я буду использовать решение Nova Container Platform, которое позволяет получить готовый кластер за 10 минут. Также будем считать, что в StarVault уже создан OIDC provider, например, с названием "some_provider". Читать далее

#oidc #sso #mlflow #jupyterhub #airflow | @habr_ai
Библиотека OutboxML от Страхового Дома ВСК

Хабр, привет!

Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.

Первый вопрос, который может задать себе читатель, знакомый с темой современного машинного обучения:

«Почему бы не взять одну из десятков (если не сотен) открытых AutoML-библиотек?»

Ответ прост: мы не стремились создать ещё один «стандартный» проект AutoML. Наша цель — сфокусироваться на вещах, которые редко встречаются в готовых решениях: Читать далее

#automl #машинное_обучение #машинное_обучение_python #data_science #mlops #mlflow #fastapi #grafana #открытый_код #ml | @habr_ai