Data Engineering / Инженерия данных / Data Engineer / DWH

Потоковая обработка данных с Apache Flink (Фабиан Уэске, Василики Калаври).pdf

Начните работу с Apache Flink, фреймворком с открытым исходным кодом, на котором основаны многие крупнейшие в мире системы обработки потоковых данных. В данной книге вы изучите фундаментальные понятия параллельной потоковой обработки и узнаете, чем эта технология отличается от традиционной пакетной обработки данных.

Ф. Уэске и В. Калаври, занятые в проекте Apache Flink с первых дней, покажут вам, как создавать масштабируемые потоковые приложения с помощью API Flink DataStream, а также непрерывно выполнять и поддерживать эти приложения в операционных средах.

Потоковая обработка идеально подходит для многих задач: подготовки данных с малой задержкой, потоковой аналитики и информационных панелей в реальном времени, раннего оповещения и обнаружения мошенничества. Вы можете обрабатывать потоковые данные любого типа, включая взаимодействия с пользователем, финансовые транзакции и данные интернета вещей, немедленно после получения.

202 views18:37

Принципы_организации_распределенных_баз_данных_М_Тамер_Ёcy,_Патрик.pdf

9 MB

Принципы организации распределенных баз данных (М. Тамер Ёcy, Патрик Вальдуриес).pdf

В книге представлено подробное описание распределенных и параллельных баз данных с учетом новейших технологий. Авторы затрагивают такие темы, как проектирование распределенных и параллельных БД, контроль распределенных данных, распределенная обработка запросов и транзакций, интеграция баз данных. Отдельная глава посвящена обработке больших данных (в частности, обсуждаются распределенные системы хранения, потоковая обработка данных, платформы MapReduce и Spark, анализ графов и озера данных). Обработка веб-данных рассматривается с акцентом на технологию RDF, получившую широкое распространение.
В конце глав 2–12 приводятся упражнения, позволяющие закрепить теоретический материал. На сопроводительном сайте читатели найдут информацию об основах реляционных баз данных, обработке запросов, управлении транзакциями и компьютерных сетях.

266 views18:40

Data Engineering / Инженерия данных / Data Engineer / DWH

Про Kafka (основы)

https://youtu.be/-AZOi3kP9Js

YouTube

Про Kafka (основы)

Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
На видео мой рассказ про основы Kafka: что, зачем, как и где.

214 views17:22

Data Engineering / Инженерия данных / Data Engineer / DWH

Видео с конференции Airflow 2022

https://youtube.com/playlist?list=PLGudixcDaxY2LxjeHpZRtzq7miykjjFOn

192 views06:22

Data Engineering / Инженерия данных / Data Engineer / DWH

Создание современной платформы для работы с данными с помощью Open-Source-решений

https://habr.com/en/company/vk/blog/671642/

Habr

Создание современной платформы для работы с данными с помощью Open-Source-решений

Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference . Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики...

844 viewsedited 14:47

Data Engineering / Инженерия данных / Data Engineer / DWH

docker-cheat-sheet.pdf

140.4 KB

189 views15:33

Data Engineering / Инженерия данных / Data Engineer / DWH

Зачем вам Dagster, если есть AirFlow: сравнение ETL-оркестраторов

https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html

203 views05:55

Data Engineering / Инженерия данных / Data Engineer / DWH

Краткое описание Airflow с инструкцией по установке через docker-compose

https://ivan-shamaev.ru/apache-airflow-docker-python-dag-data-pipeline/

Персональный блог Data Engineer | Ex-TeamLead BI Developer

Apache Airflow: docker, python, DAG, конвейер обработки данных

Apache Airflow: docker, python, DAG, конвейер обработки данных. Установка install. Учебник книга book курсы. Примеры

225 views08:03

Data Engineering / Инженерия данных / Data Engineer / DWH

awesome-apache-airflow: Curated list of resources about Apache Airflow

https://github.com/jghoman/awesome-apache-airflow

GitHub

GitHub - jghoman/awesome-apache-airflow: Curated list of resources about Apache Airflow

Curated list of resources about Apache Airflow. Contribute to jghoman/awesome-apache-airflow development by creating an account on GitHub.

195 views12:45

Data Engineering / Инженерия данных / Data Engineer / DWH

10+ Apache Airflow Courses [2022] | Learn Online for Free | Class Central
https://www.classcentral.com/subject/apache-airflow

Class Central

100+ Apache Airflow Online Courses for 2025 | Explore Free Courses & Certifications | Class Central

Master workflow orchestration and data pipeline automation using Apache Airflow's DAGs, operators, and scheduling capabilities. Build production-ready ETL pipelines with hands-on training on Udemy, LinkedIn Learning, and YouTube, integrating with AWS, Google…

207 views13:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Apache Nifi Crash Course
https://www.youtube.com/watch?v=fblkgr1PJ0o

YouTube

Apache Nifi Crash Course

Introduction: This workshop will provide a hands on introduction to simple event data processing and data flow processing using a Sandbox on students’ personal machines.

Format: A short introductory lecture to Apache NiFi and computing used in the lab followed…

193 viewsedited 15:54

Data Engineering / Инженерия данных / Data Engineer / DWH

1.Introduction to Airflow
2.Airflow DAGs
3.Airflow web interface

👍1

190 views07:18

Data Engineering / Инженерия данных / Data Engineer / DWH

Forwarded from karpov.courses

Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы для решения реальной прикладной задачи.

Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.

YouTube

Применение массивов для решения прикладной задачи в ClickHouse | Мария Сомова | karpov.courses

Симулятор аналитика: http://bit.ly/3xH64DP

Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы…

178 views17:57

Data Engineering / Инженерия данных / Data Engineer / DWH

Dynamic Tasks in Airflow
With the release of Airflow 2.3, users can write DAGs that dynamically generate parallel tasks at runtime. This feature, known as dynamic task mapping, is a paradigm shift for DAG design in Airflow.

https://www.astronomer.io/guides/dynamic-tasks

www.astronomer.io

Create dynamic Airflow tasks | Astronomer Documentation

How to dynamically create tasks at runtime in your Airflow DAGs.

181 views12:30

Data Engineering / Инженерия данных / Data Engineer / DWH

The State of Data Engineering 2022 - LakeFS
https://lakefs.io/the-state-of-data-engineering-2022/

Git for Data - lakeFS

The State of Data Engineering 2022 - Git for Data - lakeFS

Discover the latest tools and trends in data engineering for 2022. Get insights on advancements in Git for Data and how to stay ahead in the industry.

758 views13:11

Data Engineering / Инженерия данных / Data Engineer / DWH

apache-nifi-for-dummies.pdf

4.5 MB

Apache Nifi for Dummies

Apache NiFi is an integrated data logistics and simple event processing platform. It provides an end-to-end platform that can collect, curate, analyze and act on data in real-time, on-premise, or in the cloud with a drag-and-drop visual interface.

💡 NiFi fundamentals
💡 NiFi use cases
💡 How to get started, debug and manage your own dataflows

👍1

199 viewsedited 15:54

Data Engineering / Инженерия данных / Data Engineer / DWH

Apache NiFi User Guide

Apache NiFi is a dataflow system based on the concepts of flow-based programming. It supports powerful and scalable directed graphs of data routing, transformation, and system mediation logic. NiFi has a web-based user interface for design, control, feedback, and monitoring of dataflows. It is highly configurable along several dimensions of quality of service, such as loss-tolerant versus guaranteed delivery, low latency versus high throughput, and priority-based queuing. NiFi provides fine-grained data provenance for all data received, forked, joined cloned, modified, sent, and ultimately dropped upon reaching its configured end-state.

https://nifi.apache.org/docs/nifi-docs/html/user-guide.html

nifi.apache.org

Apache NiFi User Guide

166 viewsedited 16:51

Data Engineering / Инженерия данных / Data Engineer / DWH

Apache Nifi Expression Language Cheat Sheet.pdf

62.4 KB

Apache Nifi Expression Language Cheat Sheet

164 views16:58

About

Blog

Apps

Platform