Fundamentals_of_Data_Engineering_Joe_Reis_and_Matt_Housley_z_lib.pdf
6.6 MB
Fundamentals of Data Engineering (Joe Reis and Matt Housley).pdf
2022
This book will help you:
🔨 Assess data engineering problems using an end-to-end data framework of best practices
🔨 Cut through marketing hype when choosing data technologies, architecture, and processes
🔨 Use the data engineering lifecycle to design and build a robust architecture
🔨 Incorporate data governance and security across the data engineering lifecycle
You will understand how to apply the concepts of data generation, ingestion, orchestration, transformation, storage, governance, and deployment that are critical in any data environment regardless of the underlying technology.
2022
This book will help you:
🔨 Assess data engineering problems using an end-to-end data framework of best practices
🔨 Cut through marketing hype when choosing data technologies, architecture, and processes
🔨 Use the data engineering lifecycle to design and build a robust architecture
🔨 Incorporate data governance and security across the data engineering lifecycle
You will understand how to apply the concepts of data generation, ingestion, orchestration, transformation, storage, governance, and deployment that are critical in any data environment regardless of the underlying technology.
What is a Data Platform? And How to Build One
In this post:
- What is a data platform?
- The six must-have layers of a modern data platform
- Data Storage and Processing
- Data Ingestion
- Data Transformation and Modeling
- Business Intelligence (BI) and Analytics
- Data Observability
- Data Discovery
- Data platform vs. customer data platform
- Build or buy your 6-layer data platform? It depends.
https://www.montecarlodata.com/blog-what-is-a-data-platform-and-how-to-build-one/
In this post:
- What is a data platform?
- The six must-have layers of a modern data platform
- Data Storage and Processing
- Data Ingestion
- Data Transformation and Modeling
- Business Intelligence (BI) and Analytics
- Data Observability
- Data Discovery
- Data platform vs. customer data platform
- Build or buy your 6-layer data platform? It depends.
https://www.montecarlodata.com/blog-what-is-a-data-platform-and-how-to-build-one/
Monte Carlo Data
What Is A Data Platform And How Do You Build One?
A data platform is a central repository and processing house for all of an organization's data. Here's how to build an awesome data platform.
Data_Algorithms_with_Spark_Recipes_and_Design_Patterns_for_Scaling.pdf
12.6 MB
Data Algorithms with Spark Recipes and Design Patterns for Scaling Up using PySpark (Mahmoud Parsian).pdf
Linux_Книга_рецептов_Карла_Шрёдер_z_lib_org.pdf
9.7 MB
Linux. Книга рецептов (Карла Шрёдер).pdf
What Good Data Product Managers Do – And Why You Probably Need One
https://www.montecarlodata.com/blog-what-good-data-product-managers-do-and-why-you-probably-need-one/
https://www.montecarlodata.com/blog-what-good-data-product-managers-do-and-why-you-probably-need-one/
Monte Carlo Data
What Good Data Product Managers Do — And Why You Probably Need One
A data product manager is responsible for data democratization and increasing the time to value for the data itself.
Потоковая_обработка_данных_с_Apache_Flink_Фабиан_Уэске,_Василики.pdf
10.9 MB
Потоковая обработка данных с Apache Flink (Фабиан Уэске, Василики Калаври).pdf
Начните работу с Apache Flink, фреймворком с открытым исходным кодом, на котором основаны многие крупнейшие в мире системы обработки потоковых данных. В данной книге вы изучите фундаментальные понятия параллельной потоковой обработки и узнаете, чем эта технология отличается от традиционной пакетной обработки данных.
Ф. Уэске и В. Калаври, занятые в проекте Apache Flink с первых дней, покажут вам, как создавать масштабируемые потоковые приложения с помощью API Flink DataStream, а также непрерывно выполнять и поддерживать эти приложения в операционных средах.
Потоковая обработка идеально подходит для многих задач: подготовки данных с малой задержкой, потоковой аналитики и информационных панелей в реальном времени, раннего оповещения и обнаружения мошенничества. Вы можете обрабатывать потоковые данные любого типа, включая взаимодействия с пользователем, финансовые транзакции и данные интернета вещей, немедленно после получения.
Начните работу с Apache Flink, фреймворком с открытым исходным кодом, на котором основаны многие крупнейшие в мире системы обработки потоковых данных. В данной книге вы изучите фундаментальные понятия параллельной потоковой обработки и узнаете, чем эта технология отличается от традиционной пакетной обработки данных.
Ф. Уэске и В. Калаври, занятые в проекте Apache Flink с первых дней, покажут вам, как создавать масштабируемые потоковые приложения с помощью API Flink DataStream, а также непрерывно выполнять и поддерживать эти приложения в операционных средах.
Потоковая обработка идеально подходит для многих задач: подготовки данных с малой задержкой, потоковой аналитики и информационных панелей в реальном времени, раннего оповещения и обнаружения мошенничества. Вы можете обрабатывать потоковые данные любого типа, включая взаимодействия с пользователем, финансовые транзакции и данные интернета вещей, немедленно после получения.
Принципы_организации_распределенных_баз_данных_М_Тамер_Ёcy,_Патрик.pdf
9 MB
Принципы организации распределенных баз данных (М. Тамер Ёcy, Патрик Вальдуриес).pdf
В книге представлено подробное описание распределенных и параллельных баз данных с учетом новейших технологий. Авторы затрагивают такие темы, как проектирование распределенных и параллельных БД, контроль распределенных данных, распределенная обработка запросов и транзакций, интеграция баз данных. Отдельная глава посвящена обработке больших данных (в частности, обсуждаются распределенные системы хранения, потоковая обработка данных, платформы MapReduce и Spark, анализ графов и озера данных). Обработка веб-данных рассматривается с акцентом на технологию RDF, получившую широкое распространение.
В конце глав 2–12 приводятся упражнения, позволяющие закрепить теоретический материал. На сопроводительном сайте читатели найдут информацию об основах реляционных баз данных, обработке запросов, управлении транзакциями и компьютерных сетях.
В книге представлено подробное описание распределенных и параллельных баз данных с учетом новейших технологий. Авторы затрагивают такие темы, как проектирование распределенных и параллельных БД, контроль распределенных данных, распределенная обработка запросов и транзакций, интеграция баз данных. Отдельная глава посвящена обработке больших данных (в частности, обсуждаются распределенные системы хранения, потоковая обработка данных, платформы MapReduce и Spark, анализ графов и озера данных). Обработка веб-данных рассматривается с акцентом на технологию RDF, получившую широкое распространение.
В конце глав 2–12 приводятся упражнения, позволяющие закрепить теоретический материал. На сопроводительном сайте читатели найдут информацию об основах реляционных баз данных, обработке запросов, управлении транзакциями и компьютерных сетях.
Видео с конференции Airflow 2022
https://youtube.com/playlist?list=PLGudixcDaxY2LxjeHpZRtzq7miykjjFOn
https://youtube.com/playlist?list=PLGudixcDaxY2LxjeHpZRtzq7miykjjFOn
Создание современной платформы для работы с данными с помощью Open-Source-решений
https://habr.com/en/company/vk/blog/671642/
https://habr.com/en/company/vk/blog/671642/
Habr
Создание современной платформы для работы с данными с помощью Open-Source-решений
Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference . Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики...
Зачем вам Dagster, если есть AirFlow: сравнение ETL-оркестраторов
https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html
https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html
Краткое описание Airflow с инструкцией по установке через docker-compose
https://ivan-shamaev.ru/apache-airflow-docker-python-dag-data-pipeline/
https://ivan-shamaev.ru/apache-airflow-docker-python-dag-data-pipeline/
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Apache Airflow: docker, python, DAG, конвейер обработки данных
Apache Airflow: docker, python, DAG, конвейер обработки данных. Установка install. Учебник книга book курсы. Примеры
awesome-apache-airflow: Curated list of resources about Apache Airflow
https://github.com/jghoman/awesome-apache-airflow
https://github.com/jghoman/awesome-apache-airflow
GitHub
GitHub - jghoman/awesome-apache-airflow: Curated list of resources about Apache Airflow
Curated list of resources about Apache Airflow. Contribute to jghoman/awesome-apache-airflow development by creating an account on GitHub.
10+ Apache Airflow Courses [2022] | Learn Online for Free | Class Central
https://www.classcentral.com/subject/apache-airflow
https://www.classcentral.com/subject/apache-airflow
Class Central
100+ Apache Airflow Online Courses for 2025 | Explore Free Courses & Certifications | Class Central
Master workflow orchestration and data pipeline automation using Apache Airflow's DAGs, operators, and scheduling capabilities. Build production-ready ETL pipelines with hands-on training on Udemy, LinkedIn Learning, and YouTube, integrating with AWS, Google…
Apache Nifi Crash Course
https://www.youtube.com/watch?v=fblkgr1PJ0o
https://www.youtube.com/watch?v=fblkgr1PJ0o
YouTube
Apache Nifi Crash Course
Introduction: This workshop will provide a hands on introduction to simple event data processing and data flow processing using a Sandbox on students’ personal machines.
Format: A short introductory lecture to Apache NiFi and computing used in the lab followed…
Format: A short introductory lecture to Apache NiFi and computing used in the lab followed…