[Перевод] Строим ETL-конвейер для машинного обучения с помощью Kafka, Clickhouse и Go
В этой статье я поделюсь с вами своим опытом использования Golang, Kafka и Clickhouse на примере простого ETL-конвейера для параллельной передачи JSON-данных в базу данных с последующим прогнозированием температуры на основе машинного обучения. Читать далее
#golang #kafka #clickhouse #etl #machine_learning | @habr_ai
В этой статье я поделюсь с вами своим опытом использования Golang, Kafka и Clickhouse на примере простого ETL-конвейера для параллельной передачи JSON-данных в базу данных с последующим прогнозированием температуры на основе машинного обучения. Читать далее
#golang #kafka #clickhouse #etl #machine_learning | @habr_ai
Хабр
Строим ETL-конвейер для машинного обучения с помощью Kafka, Clickhouse и Go
В этой статье я поделюсь с вами своим опытом использования Golang, Kafka и Clickhouse на примере простого ETL-конвейера для параллельной передачи JSON-данных в базу данных с последующим...
Как собрать ETL-процессы в Apache Airflow и перестать страдать
Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?
Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.
Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом. Читать далее
#bigdata #big_data #airflow #apache_airflow #etl #etl_процессы #etl_пайплайн #оркестрация #машинное_обучение | @habr_ai
Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?
Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.
Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом. Читать далее
#bigdata #big_data #airflow #apache_airflow #etl #etl_процессы #etl_пайплайн #оркестрация #машинное_обучение | @habr_ai
Хабр
Как собрать ETL-процессы в Apache Airflow и перестать страдать
Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать...
Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе
До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n, и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня. Читать далее
#n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etl_процессы #pipeline #low_code | @habr_ai
До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n, и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня. Читать далее
#n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etl_процессы #pipeline #low_code | @habr_ai
Хабр
Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе
До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые...
Как я автоматизировал деплой аналитической платформы для спортивных данных на базе нестабильного API
Разбираю кейс построения отказоустойчивого пайплайна для аналитики спортивных данных на базе нестабильного API dingerodds com. В статье — реализация обёртки с ретраями и балансировкой, деплой в Kubernetes с автоскейлингом, CI/CD через GitLab и хранение данных в Parquet (MinIO). Показываю, как превратить ненадёжный источник в стабильную платформу для ML и аналитики. Читать далее
#dingerodds #api_обёртка #kubernetes #cicd #devops #parquet #etl #data_engineering #ml_pipeline | @habr_ai
Разбираю кейс построения отказоустойчивого пайплайна для аналитики спортивных данных на базе нестабильного API dingerodds com. В статье — реализация обёртки с ретраями и балансировкой, деплой в Kubernetes с автоскейлингом, CI/CD через GitLab и хранение данных в Parquet (MinIO). Показываю, как превратить ненадёжный источник в стабильную платформу для ML и аналитики. Читать далее
#dingerodds #api_обёртка #kubernetes #cicd #devops #parquet #etl #data_engineering #ml_pipeline | @habr_ai