Data Engineering / Инженерия данных / Data Engineer / DWH
1.94K subscribers
49 photos
7 videos
52 files
350 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Зачем вам Dagster, если есть AirFlow: сравнение ETL-оркестраторов

https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html
Forwarded from karpov.courses
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы для решения реальной прикладной задачи.

Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.
Dynamic Tasks in Airflow
With the release of Airflow 2.3, users can write DAGs that dynamically generate parallel tasks at runtime. This feature, known as dynamic task mapping, is a paradigm shift for DAG design in Airflow.

https://www.astronomer.io/guides/dynamic-tasks
apache-nifi-for-dummies.pdf
4.5 MB
Apache Nifi for Dummies

Apache NiFi is an integrated data logistics and simple event processing platform. It provides an end-to-end platform that can collect, curate, analyze and act on data in real-time, on-premise, or in the cloud with a drag-and-drop visual interface.

💡 NiFi fundamentals
💡 NiFi use cases
💡 How to get started, debug and manage your own dataflows
👍1
Apache NiFi User Guide

Apache NiFi is a dataflow system based on the concepts of flow-based programming. It supports powerful and scalable directed graphs of data routing, transformation, and system mediation logic. NiFi has a web-based user interface for design, control, feedback, and monitoring of dataflows. It is highly configurable along several dimensions of quality of service, such as loss-tolerant versus guaranteed delivery, low latency versus high throughput, and priority-based queuing. NiFi provides fine-grained data provenance for all data received, forked, joined cloned, modified, sent, and ultimately dropped upon reaching its configured end-state.

https://nifi.apache.org/docs/nifi-docs/html/user-guide.html
Осваиваем_Kubernetes_Оркестрация_контейнерных_архитектур_Джиджи.pdf
8.9 MB
Осваиваем Kubernetes. Оркестрация контейнерных архитектур (Джиджи Сайфан).pdf

В книге рассмотрена новейшая версия Kubernetes 1.10.
Kubernetes – это система с открытым кодом, предназначенная для работы с контейнерными приложениями, их развертывания, масштабирования, управления ими. Если вы хотите запустить дополнительные контейнеры или автоматизировать управление, то вам не обойтись без Kubernetes.
Книга начинается с изучения основ Kubernetes, архитектуры и компоновки этой системы. Вы научитесь создавать микросервисы с сохранением состояния, ознакомитесь с такими продвинутыми возможностями, как горизонтальное автомасштабирование подов, выкатывание обновлений, квотирование ресурсов, обустроите долговременное хранилище на бэкенде. На реальных примерах вы исследуете возможности сетевой конфигурации, подключение и настройку плагинов. Эта книга поможет вам стать искусным дирижером и обращаться с контейнерными системами любой сложности.
Микросервисы_Паттерны_разработки_и_рефакторинга_Крис_Ричардсон.pdf
19.3 MB
Микросервисы. Паттерны разработки и рефакторинга (Крис Ричардсон).pdf

Если вам давно кажется, что вся разработка и развертывание в вашей компании донельзя замедлились – переходите на микросервисную архитектуру. Она обеспечивает непрерывную разработку, доставку и развертывание приложений любой сложности.
Книга, предназначенная для разработчиков и архитекторов из больших корпораций, рассказывает, как проектировать и писать приложения в духе микросервисной архитектуры. Также в ней описано, как делается рефакторинг крупного приложения – и монолит превращается в набор микросервисов.

В этой книге
• Как (и зачем!) использовать микросервисную архитектуру.
• Стратегии декомпозиции сервисов.
• Управление транзакциями и шаблоны запросов.
• Эффективные стратегии тестирования.
• Шаблоны развертывания, включая контейнеры и бессерверные платформы.