Хабр / ML & AI
481 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Как автоматизировать обучение ML-моделей и сократить время вывода в прод до двух дней

В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория, описание логики категоризации и набора в кампании для коммуникации с клиентами. Сегодня мы подробнее расскажем про наш подход к автоматизации построения и вывода в прод набора моделей. Читать далее

#data_science #machine_learning #automl #feature_store #automatization | @habr_ai
Как я автоматизировал деплой аналитической платформы для спортивных данных на базе нестабильного API

Разбираю кейс построения отказоустойчивого пайплайна для аналитики спортивных данных на базе нестабильного API dingerodds com. В статье — реализация обёртки с ретраями и балансировкой, деплой в Kubernetes с автоскейлингом, CI/CD через GitLab и хранение данных в Parquet (MinIO). Показываю, как превратить ненадёжный источник в стабильную платформу для ML и аналитики. Читать далее

#dingerodds #api_обёртка #kubernetes #cicd #devops #parquet #etl #data_engineering #ml_pipeline | @habr_ai
Как меняется рынок и зачем нужны конференции по Ai

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии. Читать далее

#конференция #ai #ии #ии_ассистенты #ai_агенты #качество_данных #data_quality #data_quality_management #геоданные #llm_модели | @habr_ai
[Перевод] Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать

Переход из Data Science в AI Engineering — это не просто смена должности, а полный сдвиг в подходах к работе с моделями и их внедрению в продакшн. В статье я делюсь опытом, как расширение ролей Data Scientist и AI Engineer пересекается с DevOps, MLOps и инфраструктурными практиками. Если вам интересно, как сделать шаг от теории к реальной работе с моделями, интеграции в инфраструктуру и поддержке на протяжении жизненного цикла — читайте дальше. Читать далее

#data_science #ai_engineering #mlops #devops #инфраструктура_как_код #k8s #cicd #машинное_обучение #развертывание_моделей | @habr_ai
Автоматизированная оценка стабильности скоринговых моделей на основе временных рядов метрик

Привет, Хабр! Меня зовут Зотов Глеб, я ML-инженер в команде скоринга в билайне. В статье расскажу о том, как не сойти с ума, мониторя десятки графиков вручную. 

Скоринговая модель может быть блестящей на этапе обучения, показывать отличные значения всех метрик на кросс-валидации и радовать бизнес на первых неделях после деплоя. Но вжух — и через два месяца валидационные метрики поползли вниз, отклонения по PSI зашкаливают, а product owner уже поглядывает в твою сторону с подозрением.

Проблема? Проблема. 

Давайте разберемся, почему так происходит и как можно этого избежать. Читать далее

#time_series_analysis #psi #optimization #automatization #machine_learning #feature_stability #model_stability #data_drift #stability_metrics | @habr_ai
Koda: AI-помощник разработчика – бесплатно, без VPN, с поддержкой русского языка

Индустрия ИИ переживает рекордный бум: каждую неделю появляются новые модели, а заголовки пестрят новостями о многомиллионных контрактах и громких переходах звёздных исследователей. Прорывы происходят на всех уровнях: от чипов и инфраструктуры (NVIDIA и др.) до моделей и инструментов вроде Cursor или Windsurf.

Но у российских разработчиков выбор заметно ýже: ограничения, VPN, трудности с оплатой. Мы решили это изменить и создали Koda — AI-помощника, который доступен бесплатно и без VPN, работает с современными моделями и привычными функциями: автодополнение кода, чат, поиск по документации и коду проекта, а также агентный режим! Читать далее

#koda #llm #ai #copilot #ai_инструменты #вайб_кодинг #агент #vibecoding #data_science #machine_learning | @habr_ai
Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для последовательных рекомендательных систем: обзор

👋 Привет, Хабр!

Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.

До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.

Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает. Читать далее

#recsys #data_science #machine_learning #transformers | @habr_ai
1
Shap-графики: как наглядно объяснить заказчику логику работы модели

Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ.

В этой статье расскажу о том, какие на мой взгляд типы графиков необходимо построить, чтобы наиболее оптимальным образом показать заказчику логику работы фичей в моделях. Читать далее

#shap #machine_learning #catboost #data_science #python #моделирование | @habr_ai
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами? Читать далее

#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность | @habr_ai
Библиотека OutboxML от Страхового Дома ВСК

Хабр, привет!

Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.

Первый вопрос, который может задать себе читатель, знакомый с темой современного машинного обучения:

«Почему бы не взять одну из десятков (если не сотен) открытых AutoML-библиотек?»

Ответ прост: мы не стремились создать ещё один «стандартный» проект AutoML. Наша цель — сфокусироваться на вещах, которые редко встречаются в готовых решениях: Читать далее

#automl #машинное_обучение #машинное_обучение_python #data_science #mlops #mlflow #fastapi #grafana #открытый_код #ml | @habr_ai
Всё что нужно знать про torch.sparse

Разработчики PyTorch предоставили модуль torch.sparse для работы с разреженными тензорами, где большинство элементов – нули. Зачем это нужно? Представьте матрицу смежности графа, сильно обрезанную сеть или облако точек – хранить такие данные плотным массивом без надобности расточительно. Разрежённая структура сохраняет только ненулевые элементы и их индексы, что сильно экономит память и ускоряет вычисления. Например, матрица размером 10,000 на 10,000 с 100 000 ненулевых float-значений в разрежённом COO-формате займёт не 400 МБ, а около 2 МБ.

Несмотря на перспективы, API разрежённых тензоров в PyTorch пока в бете и может менять крошечные детали. Будьте к этому готовы: часть операций поддерживается, часть – нет, и некоторые автоград-ячейки пока работают только для COO, а для CSR, например, градиент не считается. Но обо всём по порядку. Читать далее

#ml #data_science #разрежённые_тензоры #pytorch #оптимизация_памяти #torch_sparse #матричное_умножение | @habr_ai
MLOps без мам, пап и GPT: как поднять сервер для AI за вечер

Self-hosted в работе с ML — это база. Для работы с данными, особенно если они чувствительные, нужно собственное хранилище, а также ресурсы, на которых можно быстро и без очереди развернуть пайплайн. Часто в «джентльменский набор» ML-инженера входит: Jupyter Notebook, фреймворки Tensorflow и Keras, а также ускорители вроде XGBoost и LightGBM.

Самостоятельная установка компонентов и настройка рабочего окружения — нетривиальная задача. Нужно разбираться в Docker и принципах контейнеризации, а также следить за конфликтами версий и разбирать dependency hell. И, конечно, нужно настроить хранилище и соединение с сервером, а это задача не одного дня.

В этой инструкции делимся способом, как за несколько кликов поднять рабочее пространство на базе готового образа для ML и Data. Подробности под катом! Читать далее

#selectel #mlops #ai #сервер #data #gpu #хранилище_данных #конфигурация #выделенный_сервер | @habr_ai
Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов

Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.

В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :) Читать далее

#recsys #рекомендательные_системы #ml #machinelearning #машинное_обучение #митап #meetup #доклады #ds #data_science | @habr_ai