Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/761328/
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/761328/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]
В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи...
Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке
#БлогкомпанииSelectel #Анализипроектированиесистем #BigData #Хранениеданных #selectel #dwh #etl IV
https://habr.com/ru/companies/selectel/articles/788302/
#БлогкомпанииSelectel #Анализипроектированиесистем #BigData #Хранениеданных #selectel #dwh #etl IV
https://habr.com/ru/companies/selectel/articles/788302/
Хабр
Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке
Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel . В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам. У нас достаточно...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]
#Opensource #Программирование #Java #SQL #BigData #etl #apachespark
https://habr.com/ru/articles/808483/
#Opensource #Программирование #Java #SQL #BigData #etl #apachespark
https://habr.com/ru/articles/808483/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]
В предыдущих сериях ( FAQ • 1 • 2 • 3 • 4 • 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный...
Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов
#Python #Apache #Хранениеданных #Хранилищаданных #DataEngineering #etl #ApacheDruid
https://habr.com/ru/articles/809751/
#Python #Apache #Хранениеданных #Хранилищаданных #DataEngineering #etl #ApacheDruid
https://habr.com/ru/articles/809751/
Хабр
Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов
Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных. Тысячи...
Apache NiFi как доступный ETL инструмент: кейс применения + тестовый стенд Docker
#Apache #Хранениеданных #DataEngineering #ETL #NIFI #dataengineering #apachenifi
https://habr.com/ru/articles/813813/
#Apache #Хранениеданных #DataEngineering #ETL #NIFI #dataengineering #apachenifi
https://habr.com/ru/articles/813813/
Хабр
Apache NiFi как доступный ETL инструмент: кейс применения + тестовый стенд Docker
Привет! Меня зовут Владимир Ходак, я работаю инженером данных в компании "ДЮК Технологии". В статье расскажу о практических аспектах использования Apache NiFi, опишу преимущества и проблемы, с...
Первая ракета в космосе или миграция витрины эквайринг на ArenaData DB
#БлогкомпанииХолдингТ1 #БлогкомпанииВТБ #Управлениепроектами #DevOps #эквайринг #витринаданных #etl
https://habr.com/ru/companies/T1Holding/articles/834540/
#БлогкомпанииХолдингТ1 #БлогкомпанииВТБ #Управлениепроектами #DevOps #эквайринг #витринаданных #etl
https://habr.com/ru/companies/T1Holding/articles/834540/
Хабр
Первая ракета в космосе или Миграция витрины эквайринг на Arenadata DB
Привет, Хабр! Меня зовут Иван Останин , я тимлид разработки в ВТБ. Направлением работы моей команды являются платформы данных. Сейчас совместно с командой из Холдинга T1 мы работаем над одним из...
Наш опыт эксплуатации Airflow в Kubernetes
#БлогкомпанииVK #БлогкомпанииГазпромбанк #Управлениепроектами #Kubernetes #kubernetes #airflow #etl
https://habr.com/ru/companies/vk/articles/836256/
#БлогкомпанииVK #БлогкомпанииГазпромбанк #Управлениепроектами #Kubernetes #kubernetes #airflow #etl
https://habr.com/ru/companies/vk/articles/836256/
Хабр
Наш опыт эксплуатации Airflow в Kubernetes
Всем привет! Я недавно выступал с докладом на VK Kubernetes Conf 2024 про нашу историю изменения подходов к эксплуатации Kubernetes Airflow и хочу поделиться им с сообществом. image Что...
[Перевод] Строим ETL-конвейер для машинного обучения с помощью Kafka, Clickhouse и Go
#golang #kafka #Clickhouse #etl #machinelearning
https://habr.com/ru/companies/otus/articles/847896/
#golang #kafka #Clickhouse #etl #machinelearning
https://habr.com/ru/companies/otus/articles/847896/
Хабр
Строим ETL-конвейер для машинного обучения с помощью Kafka, Clickhouse и Go
В этой статье я поделюсь с вами своим опытом использования Golang, Kafka и Clickhouse на примере простого ETL-конвейера для параллельной передачи JSON-данных в базу данных с последующим...
ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
#dataengineering #etl #etlпроцессы #sql #python
https://habr.com/ru/articles/849062/
#dataengineering #etl #etlпроцессы #sql #python
https://habr.com/ru/articles/849062/
Хабр
ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
Привет, Хабр! Меня зовут Дмитрий и я работаю инженером данных. Это моя первая статья, в ней я хочу поделиться своим пет-проектом, который посвящен созданию ETL-процесса — это один из ключевых...
Где циклу while нет альтернативы
#программирование #python3 #sql #oracle #postgresql #etlпроцессы #etl
https://habr.com/ru/articles/853682/
#программирование #python3 #sql #oracle #postgresql #etlпроцессы #etl
https://habr.com/ru/articles/853682/
Хабр
Где циклу while нет альтернативы
Уверен многие тру-программисты и без меня это знают, но я решился опубликовать пару реализаций циклов через while, которыми я активно пользуюсь, как автоматизатор, тестировщик и разработчик ETL. while...
Kafka Streams ч2: DSL, Processor API
#etl #kafkastreams #kafka #elt #etlпроцессы #etlпайплайн #java
https://habr.com/ru/articles/854680/
#etl #kafkastreams #kafka #elt #etlпроцессы #etlпайплайн #java
https://habr.com/ru/articles/854680/
Хабр
Kafka Streams ч2: DSL, Processor API
DSL — это то, что делает Kafka Streams таким простым и позволяет подняться на более высокий уровень абстракции. В прошлой статье мы рассматривали следующий код: KStream<String, String> source =...
Написание ETL пайплайна при помощи airflow, rabbitmq и postgres
#airflow #python #docker #rabbitmq #postgresql #mongodb #etl
https://habr.com/ru/articles/857476/
#airflow #python #docker #rabbitmq #postgresql #mongodb #etl
https://habr.com/ru/articles/857476/
Хабр
Написание ETL пайплайна при помощи airflow, rabbitmq и postgres
Всем привет! В данной статье мы рассмотрим как можно локально развернуть airflow с помощью docker desktop'a и PyCharm'a. Кроме него развернём ещё и следующее: rabbitMQ, postgreSQL, redis и MongoDB....
Kafka Streams ч3: Stateless processing
#kafkastreams #kafka #java #etl #elt #etlпроцессы
https://habr.com/ru/articles/858668/
#kafkastreams #kafka #java #etl #elt #etlпроцессы
https://habr.com/ru/articles/858668/
Хабр
Kafka Streams ч3: Stateless processing
В предыдущих статьях [ ноль , один ] мы рассмотрели основные концепции Kafka Streams и сравнили их со стандартными подходами обработки потоковых данных. В этой части мы сосредоточимся на stateless...
Извлечение данных. 1С Экстрактор или ETL — что выбрать?
#etl #модусetl #1с #экстрактор #извлечениеданных
https://habr.com/ru/companies/modusbi/articles/860376/
#etl #модусetl #1с #экстрактор #извлечениеданных
https://habr.com/ru/companies/modusbi/articles/860376/
Хабр
Извлечение данных. 1С Экстрактор или ETL — что выбрать?
Данные превратились в жизненную силу организаций, подпитывая принятие обоснованных решений и стимулируя инновации. Поэтому выбор правильного решения, автоматизирующего их сбор, важен для...
Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года
#apacheairflow #dataanalytics #датааналитик #dataengineering #etl
https://habr.com/ru/articles/860900/
#apacheairflow #dataanalytics #датааналитик #dataengineering #etl
https://habr.com/ru/articles/860900/
Хабр
Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года
Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs). Что с...
Автоматизация процессов в ETL: зачем это нужно и как реализовано в Modus?
#автоматизация #etl #автоматизацияпроцессов #настройкапроцессов #потребованию #поусловию #черезapi
https://habr.com/ru/companies/modusbi/articles/862470/
#автоматизация #etl #автоматизацияпроцессов #настройкапроцессов #потребованию #поусловию #черезapi
https://habr.com/ru/companies/modusbi/articles/862470/
Хабр
Автоматизация процессов в ETL: зачем это нужно и как реализовано в Modus?
По версии Grand View, в 2025 году рынок автоматизации бизнес-процессов вырастет до 26 млрд долларов. Это доказывает, что компании видят автоматизацию одним из главных факторов успеха и все чаще...
Kafka Streams ч4: Stateful processing
#kafka #kafkastreams #etl #elt #etlпроцессы
https://habr.com/ru/articles/862976/
#kafka #kafkastreams #etl #elt #etlпроцессы
https://habr.com/ru/articles/862976/
Хабр
Kafka Streams ч4: Stateful processing
В предыдущих статьях Kafka Streams ч1: Привет, мир Kafka Streams ч2: DSL, Processor API Kafka Streams ч3: Stateless processing мы познакомились с основами Kafka Streams и рассмотрели stateless...
Выходим за рамки привычных сценариев: как оптимизировать разработку с помощью VK Data Symphony
#vkcloud #VKDataSymphony #etl #bpm
https://habr.com/ru/companies/vk/articles/867694/
#vkcloud #VKDataSymphony #etl #bpm
https://habr.com/ru/companies/vk/articles/867694/
Хабр
Выходим за рамки привычных сценариев: как оптимизировать разработку с помощью VK Data Symphony
Лишь 25% времени разработчика уходит на написание кода. Остальное тратится на ревью, созвоны и другие задачи. Поэтому справедливо, что большинство команд разработки использует различные методики и...
Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression
#apachekafka #kafkastreams #etl #elt #etlпроцессы
https://habr.com/ru/articles/870784/
#apachekafka #kafkastreams #etl #elt #etlпроцессы
https://habr.com/ru/articles/870784/
Хабр
Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression
Это моя финальная часть(ну пока что ;)) серии статей про Kafka Streams, прошлые статьи тут [ ноль , один , два , три ] Теперь давайте разработаем приложение, которое считывает: События о пульсе из...