Хабр / ML & AI
474 subscribers
5.43K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Как мы делаем веб-сервис для автоматизации рабочих задач на базе агентов LLM
Друзья, всем привет! Сегодня хотим рассказать про то, как мы — Виталий, Даниил, Роберт и Никита — при поддержке AI Talent Hub, совместной магистратуры Napoleon IT и ИТМО, создаем Цифработа — сервис цифровых работников, который помогает оптимизировать временные затраты у сотрудников на выполнение рабочих задач с помощью агентов больших языковых моделей (LLM).В данной статье мы вкратце рассмотрим, кто такие агенты, как они могут автоматизировать рабочие процессы, и обсудим ключевые вызовы, с которыми мы столкнулись при разработке сервиса. Сразу хочется отметить, что данная статья, скорее, служит обзором нашего решения проблемы и тех задач, над которыми мы работали, нежели преследует цель предоставить подробное руководство по применению агентов или проектированию архитектуры сервиса.Предлагаем начинать! Читать далее

#LLM #saas #apache_kafka | @habr_ai
Yandex Data Proc для ML: ускоряем Embedding на Spark

Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру.

Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark.

Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию.

Читать далее

#машинное_обучение #yandex_cloud #apache_airflow #python #yandex_data_proc | @habr_ai
Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK

В маркетинге и продажах крупных компаний есть несколько аналитических задач, которые требуют регулярной обработки сотен тысяч и миллионов записей из разных источников. Например, это прогнозирование продаж или планирование рекламных кампаний. Как правило, их решение не обходится без построения длинного пайплайна обработки данных. ML‑инженеру или аналитику данных нужен ансамбль из нескольких моделей и сервисов, чтобы собрать качественный датасет, провести эксперименты и выбрать наиболее подходящие алгоритмы.

Сбор, очистка и агрегация данных занимают большую часть времени и вычислительных ресурсов, а эти затраты хочется оптимизировать. В статье покажем, как мы ускорили построение пайплайнов обработки данных с помощью связки DataSphere Jobs и Apache Airflow.

Читать далее

#apache_airflow #datasphere #пайплайн #dag | @habr_ai
Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.

Kyuubi — это сервис, предоставляющий механизмы для распределённого выполнения SQL-запросов поверх различных вычислительных движков, таких как Apache Spark, Hive, Flink и Impala. Он часть дистрибутива Arenadata Hadoop (ADH), который включает эти движки для обработки и анализа данных.

Читать далее

#spark #bigdata #data_engineering #data_scientist #hadoop #apache #trino #impala #hive #s3 | @habr_ai
Как собрать ETL-процессы в Apache Airflow и перестать страдать

Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?

Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.

Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом. Читать далее

#bigdata #big_data #airflow #apache_airflow #etl #etl_процессы #etl_пайплайн #оркестрация #машинное_обучение | @habr_ai
Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

В одном из недавних интервью Марк Цукерберг заявил, что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии.

С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.

Читать далее

#машинное_обучение #ml_инженер #ai_talent_hub #mlops #разработка_веб_сервисов #рынок_труда_it #pytorch #scikit_learn #apache_airflow #postgresql | @habr_ai
12 событий апреля, которые нельзя пропустить

Мы собрали для вас серию открытых уроков, которые пройдут в апреле и помогут не просто разобраться в сложных темах, а применить знания на практике. Будущее AI агентов на основе LLM, Prometheus для мониторинга, как избежать хаоса в IT-проектах и как обучить модель понимать языки — на эти и не только темы поговорим с экспертами в IT. Рассмотрим реальные кейсы, обсудим опыт и получим понимание того, как внедрять эти технологии в проекты. Читать далее

#ai_агенты #scrum #seq2seq #автоматизация_тестирования #docker #apache_kafka #смарт_контракты #data_science #prometheus | @habr_ai
Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.), а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей. Читать далее

#common_crawl #apache_spark #language_model | @habr_ai
Машинное обучение в Apache Spark с помощью MLlib

Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она содержит реализации различных алгоритмов машинного обучения и может использоваться во всех языках программирования, поддерживаемых фреймворком Spark.

В этой статье мы покажем вам, как использовать этой библиотекой в своих программах, и дадим некоторые рекомендации по ее применению. Читать далее

#mllib #apache_spark #распределённые_вычисления #логистическая_регрессия #обработка_больших_данных | @habr_ai
Apache Flink для начинающих: архитектура, библиотеки и применение

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени. Читать далее

#apache #apache_flink #обработка_данных | @habr_ai
Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий. Читать далее

#big_data #kafka #apache_flink #machine_learning #blockchain #data_engineering #real_time_processing #security_analytics #slippage_monitoring #clickhouse | @habr_ai
Как я строил антифрод-систему для ставок: неожиданные сложности и решения

Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net. Читать далее

#антифрод_система #мошенничество_в_ставках #машинное_обучение #обработка_больших_данных #потоковая_обработка #apache_flink #apache_kafka #микросервисы #система_безопасности #выявление_аномалий | @habr_ai