Data Engineering / Инженерия данных / Data Engineer / DWH
1.92K subscribers
49 photos
7 videos
52 files
349 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Принципы_организации_распределенных_баз_данных_М_Тамер_Ёcy,_Патрик.pdf
9 MB
Принципы организации распределенных баз данных (М. Тамер Ёcy, Патрик Вальдуриес).pdf

В книге представлено подробное описание распределенных и параллельных баз данных с учетом новейших технологий. Авторы затрагивают такие темы, как проектирование распределенных и параллельных БД, контроль распределенных данных, распределенная обработка запросов и транзакций, интеграция баз данных. Отдельная глава посвящена обработке больших данных (в частности, обсуждаются распределенные системы хранения, потоковая обработка данных, платформы MapReduce и Spark, анализ графов и озера данных). Обработка веб-данных рассматривается с акцентом на технологию RDF, получившую широкое распространение.
В конце глав 2–12 приводятся упражнения, позволяющие закрепить теоретический материал. На сопроводительном сайте читатели найдут информацию об основах реляционных баз данных, обработке запросов, управлении транзакциями и компьютерных сетях.
Зачем вам Dagster, если есть AirFlow: сравнение ETL-оркестраторов

https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html
Forwarded from karpov.courses
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы для решения реальной прикладной задачи.

Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.
Dynamic Tasks in Airflow
With the release of Airflow 2.3, users can write DAGs that dynamically generate parallel tasks at runtime. This feature, known as dynamic task mapping, is a paradigm shift for DAG design in Airflow.

https://www.astronomer.io/guides/dynamic-tasks
apache-nifi-for-dummies.pdf
4.5 MB
Apache Nifi for Dummies

Apache NiFi is an integrated data logistics and simple event processing platform. It provides an end-to-end platform that can collect, curate, analyze and act on data in real-time, on-premise, or in the cloud with a drag-and-drop visual interface.

💡 NiFi fundamentals
💡 NiFi use cases
💡 How to get started, debug and manage your own dataflows
👍1
Apache NiFi User Guide

Apache NiFi is a dataflow system based on the concepts of flow-based programming. It supports powerful and scalable directed graphs of data routing, transformation, and system mediation logic. NiFi has a web-based user interface for design, control, feedback, and monitoring of dataflows. It is highly configurable along several dimensions of quality of service, such as loss-tolerant versus guaranteed delivery, low latency versus high throughput, and priority-based queuing. NiFi provides fine-grained data provenance for all data received, forked, joined cloned, modified, sent, and ultimately dropped upon reaching its configured end-state.

https://nifi.apache.org/docs/nifi-docs/html/user-guide.html
Осваиваем_Kubernetes_Оркестрация_контейнерных_архитектур_Джиджи.pdf
8.9 MB
Осваиваем Kubernetes. Оркестрация контейнерных архитектур (Джиджи Сайфан).pdf

В книге рассмотрена новейшая версия Kubernetes 1.10.
Kubernetes – это система с открытым кодом, предназначенная для работы с контейнерными приложениями, их развертывания, масштабирования, управления ими. Если вы хотите запустить дополнительные контейнеры или автоматизировать управление, то вам не обойтись без Kubernetes.
Книга начинается с изучения основ Kubernetes, архитектуры и компоновки этой системы. Вы научитесь создавать микросервисы с сохранением состояния, ознакомитесь с такими продвинутыми возможностями, как горизонтальное автомасштабирование подов, выкатывание обновлений, квотирование ресурсов, обустроите долговременное хранилище на бэкенде. На реальных примерах вы исследуете возможности сетевой конфигурации, подключение и настройку плагинов. Эта книга поможет вам стать искусным дирижером и обращаться с контейнерными системами любой сложности.