Хабр / ML & AI
481 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
To Docker or not to Docker? Вот в чём JupyterLab

Локальная работа в Jupyter-ноутбуках – неотъемлемая часть исследований и экспериментов нашего ML-отдела. Но из какой среды эти ноутбуки лучше запускать?

Мы пользуемся двумя вариантами: запуском из Docker-контейнера и запуском в изолированном локальном poetry-окружении.

В статье соберем минимальный сетап для работы с Jupyter-ноутбуками и ссылки на полезные ресурсы для ознакомления. Читать далее

#poetry #docker #docker_compose #mlops #ml #jupyterlab #jupyter #jupyter_notebook #infrastructure #mlops_tools | @habr_ai
[Перевод] Теневая сторона AutoML: когда no-code инструменты вредят больше, чем помогают

AutoML обещает лёгкий вход в машинное обучение: не нужно разбираться с пайплайнами, настраивать гиперпараметры и писать код — просто загрузи данные и получи модель. Но за удобством скрываются архитектурные риски, которые не всегда видны на первом этапе. От непрозрачных решений до «тихого дрейфа» и невозможности отката — автоматизация может не упростить, а усложнить жизнь, особенно в проде. В этой статье — разбор того, что на самом деле строит AutoML, где он действительно полезен, и почему его нельзя воспринимать как волшебную кнопку. Читать далее

#mlops #data_science #машинное_обучение #автоматизация_ml #версионирование_данных | @habr_ai
MVP по «умному» поиску данных

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию.

Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут.

Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла.

Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?» Читать далее

#mvp #gpt #ai #feature_store #data_science #datamarket #mlops #токенизатор #классификация | @habr_ai
Развёртывание ML-моделей в картинках

Всем привет! Меня зовут Алина, и ранее я вам рассказывала про то, как можно спроектировать Feature Platform. Сегодня я хочу рассказать про очень важный компонент ML-платформы — развёртывание ML-моделей, и затрону связанные с ним компоненты.

Если во время обучения модель живёт в ноутбуках и экспериментальных средах и может работать как угодно, то в эксплуатации она должна работать быстро, стабильно и предсказуемо. Давайте разберёмся, как правильно вывести модель в «боевой режим». И начнём с анализа процесса. Читать далее

#deploy #ml #mlops #python #develop | @habr_ai
1
Как мы создали систему раннего предупреждения импульсивных торговых решений: опыт отдела Rapid и Лаборатории инноваций

Система раннего предупреждения импульсивных торговых решений

🚨 Как машинное обучение помогает предотвратить эмоциональные ошибки в трейдинге

Импульсивные решения — главный враг трейдера. Эмоциональные сделки, увеличение позиций после потерь, торговля в ночное время — все это приводит к убыткам даже у опытных участников рынка.

В этой статье я расскажу, как с помощью анализа данных и машинного обучения создать систему, которая заранее предупреждает о высоком риске принятия импульсивного решения.

Что вы узнаете:

• Какие поведенческие паттерны выдают склонность к импульсивным решениям

• Как XGBoost и логистическая регрессия помогают выявить "группы риска"

• Практические рекомендации по внедрению системы предупреждений

• Реальные результаты анализа данных 1000+ трейдеров

Ключевые находки:

88% точность предсказания импульсивных решений

5 основных факторов риска, которые можно отслеживать автоматически

Снижение убыточных сделок на 23% при использовании системы

Статья будет полезна как начинающим трейдерам, так и разработчикам торговых систем. Все графики, код и методология — в открытом доступе.

#машинноеобучение #трейдинг #анализданных #финтех #python #xgboost Читать далее

#инвестиции #ml #иновации #трейдинг #mlops #машинное_обучение #биржа | @habr_ai
Как построить безопасный MLOps-pipeline: Tier-уровни зрелости, принципы и реальные инструменты

На практике продакшен-модели чаще всего «падают» из-за трёх вещей: несоответствие с инфраструктурой, дрейфа данных, и ошибочного отката/обновления версии.

Единый гайд по безопасной разработке ML-моделей — от хаотичного до полностью автоматизированного уровня зрелости.

Что внутри:

Как применять Infrastructure-as-Code для ML-кластеров и не оставлять открытые порты;

Зачем даже маленькой команде нужен Feature Store и как избежать training-serving skew;

Где прячутся CVE в ML-библиотеках и как их ловить до релиза;

Канареечный деплой с авто-откатом по метрикам и разумными порогами;

мониторинг дрейфа данных и качества модели в реальном времени;

Чек-лист DevSecOps: от тега в Model Registry до регулярных Model Review.

Материал поможет выстроить MLOps-процесс, устойчивый к атакам и сбоям, не превращая релизы моделей в ночной марафон. Читать далее

#mlsecops #mlops #devsecops #ai_security #ai_safety #безопасная_разработка_ml #жизненный_цикл_ml_модели #kubernetes_ml | @habr_ai
Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: 

— Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей. 

— Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них. 

— Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать. 

А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей.

В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали! Читать далее

#поиск #mlops #ml_design #bm25 #dssm #catboost #яндекс_лавка #machinelearning | @habr_ai
[Перевод] Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать

Переход из Data Science в AI Engineering — это не просто смена должности, а полный сдвиг в подходах к работе с моделями и их внедрению в продакшн. В статье я делюсь опытом, как расширение ролей Data Scientist и AI Engineer пересекается с DevOps, MLOps и инфраструктурными практиками. Если вам интересно, как сделать шаг от теории к реальной работе с моделями, интеграции в инфраструктуру и поддержке на протяжении жизненного цикла — читайте дальше. Читать далее

#data_science #ai_engineering #mlops #devops #инфраструктура_как_код #k8s #cicd #машинное_обучение #развертывание_моделей | @habr_ai
Как и зачем мы в YADRO сделали свою MLOps-платформу

В нашей компании есть много проектов, связанных с AI. Всем им нужны ресурсы для работы с моделями на GPU. «Хотим, чтобы только мы имели доступ к оборудованию», — это лишь одно из требований инженеров из AI-дивизиона, а еще нужно оптимизировать использование GPU-ресурсов, вести их учет и быстро подготавливать оборудование к передаче другой команде.

Привет, Хабр! Меня зовут Вадим Извеков, я руководитель группы сопровождения платформы машинного обучения в YADRO. Сегодня расскажу, почему мы решили создать свою MLOps-платформу, как она устроена и для чего используется.  Читать далее

#mlops #mlops_tools #mlops_конвейер #llm_модели #llm_приложения | @habr_ai
Библиотека OutboxML от Страхового Дома ВСК

Хабр, привет!

Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.

Первый вопрос, который может задать себе читатель, знакомый с темой современного машинного обучения:

«Почему бы не взять одну из десятков (если не сотен) открытых AutoML-библиотек?»

Ответ прост: мы не стремились создать ещё один «стандартный» проект AutoML. Наша цель — сфокусироваться на вещах, которые редко встречаются в готовых решениях: Читать далее

#automl #машинное_обучение #машинное_обучение_python #data_science #mlops #mlflow #fastapi #grafana #открытый_код #ml | @habr_ai
MLOps без мам, пап и GPT: как поднять сервер для AI за вечер

Self-hosted в работе с ML — это база. Для работы с данными, особенно если они чувствительные, нужно собственное хранилище, а также ресурсы, на которых можно быстро и без очереди развернуть пайплайн. Часто в «джентльменский набор» ML-инженера входит: Jupyter Notebook, фреймворки Tensorflow и Keras, а также ускорители вроде XGBoost и LightGBM.

Самостоятельная установка компонентов и настройка рабочего окружения — нетривиальная задача. Нужно разбираться в Docker и принципах контейнеризации, а также следить за конфликтами версий и разбирать dependency hell. И, конечно, нужно настроить хранилище и соединение с сервером, а это задача не одного дня.

В этой инструкции делимся способом, как за несколько кликов поднять рабочее пространство на базе готового образа для ML и Data. Подробности под катом! Читать далее

#selectel #mlops #ai #сервер #data #gpu #хранилище_данных #конфигурация #выделенный_сервер | @habr_ai
[Перевод] Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS

Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?

Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе. Читать далее

#llm #ai #scale_ai #genai #synthetic_data #fine_tuning #mlops #rlhf #human_in_the_loop #alignment | @habr_ai