1.Introduction to Airflow
2.Airflow DAGs
3.Airflow web interface
2.Airflow DAGs
3.Airflow web interface
👍1
Forwarded from karpov.courses
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы для решения реальной прикладной задачи.
Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.
Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.
YouTube
Применение массивов для решения прикладной задачи в ClickHouse | Мария Сомова | karpov.courses
Симулятор аналитика: http://bit.ly/3xH64DP
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы…
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы…
Dynamic Tasks in Airflow
With the release of Airflow 2.3, users can write DAGs that dynamically generate parallel tasks at runtime. This feature, known as dynamic task mapping, is a paradigm shift for DAG design in Airflow.
https://www.astronomer.io/guides/dynamic-tasks
With the release of Airflow 2.3, users can write DAGs that dynamically generate parallel tasks at runtime. This feature, known as dynamic task mapping, is a paradigm shift for DAG design in Airflow.
https://www.astronomer.io/guides/dynamic-tasks
www.astronomer.io
Create dynamic Airflow tasks | Astronomer Documentation
How to dynamically create tasks at runtime in your Airflow DAGs.
The State of Data Engineering 2022 - LakeFS
https://lakefs.io/the-state-of-data-engineering-2022/
https://lakefs.io/the-state-of-data-engineering-2022/
Git for Data - lakeFS
The State of Data Engineering 2022 - Git for Data - lakeFS
Discover the latest tools and trends in data engineering for 2022. Get insights on advancements in Git for Data and how to stay ahead in the industry.
apache-nifi-for-dummies.pdf
4.5 MB
Apache Nifi for Dummies
Apache NiFi is an integrated data logistics and simple event processing platform. It provides an end-to-end platform that can collect, curate, analyze and act on data in real-time, on-premise, or in the cloud with a drag-and-drop visual interface.
💡 NiFi fundamentals
💡 NiFi use cases
💡 How to get started, debug and manage your own dataflows
Apache NiFi is an integrated data logistics and simple event processing platform. It provides an end-to-end platform that can collect, curate, analyze and act on data in real-time, on-premise, or in the cloud with a drag-and-drop visual interface.
💡 NiFi fundamentals
💡 NiFi use cases
💡 How to get started, debug and manage your own dataflows
👍1
Apache NiFi User Guide
Apache NiFi is a dataflow system based on the concepts of flow-based programming. It supports powerful and scalable directed graphs of data routing, transformation, and system mediation logic. NiFi has a web-based user interface for design, control, feedback, and monitoring of dataflows. It is highly configurable along several dimensions of quality of service, such as loss-tolerant versus guaranteed delivery, low latency versus high throughput, and priority-based queuing. NiFi provides fine-grained data provenance for all data received, forked, joined cloned, modified, sent, and ultimately dropped upon reaching its configured end-state.
https://nifi.apache.org/docs/nifi-docs/html/user-guide.html
Apache NiFi is a dataflow system based on the concepts of flow-based programming. It supports powerful and scalable directed graphs of data routing, transformation, and system mediation logic. NiFi has a web-based user interface for design, control, feedback, and monitoring of dataflows. It is highly configurable along several dimensions of quality of service, such as loss-tolerant versus guaranteed delivery, low latency versus high throughput, and priority-based queuing. NiFi provides fine-grained data provenance for all data received, forked, joined cloned, modified, sent, and ultimately dropped upon reaching its configured end-state.
https://nifi.apache.org/docs/nifi-docs/html/user-guide.html
nifi.apache.org
Apache NiFi User Guide
Apache Nifi Expression Language Cheat Sheet.pdf
62.4 KB
Apache Nifi Expression Language Cheat Sheet
Осваиваем_Kubernetes_Оркестрация_контейнерных_архитектур_Джиджи.pdf
8.9 MB
Осваиваем Kubernetes. Оркестрация контейнерных архитектур (Джиджи Сайфан).pdf
В книге рассмотрена новейшая версия Kubernetes 1.10.
Kubernetes – это система с открытым кодом, предназначенная для работы с контейнерными приложениями, их развертывания, масштабирования, управления ими. Если вы хотите запустить дополнительные контейнеры или автоматизировать управление, то вам не обойтись без Kubernetes.
Книга начинается с изучения основ Kubernetes, архитектуры и компоновки этой системы. Вы научитесь создавать микросервисы с сохранением состояния, ознакомитесь с такими продвинутыми возможностями, как горизонтальное автомасштабирование подов, выкатывание обновлений, квотирование ресурсов, обустроите долговременное хранилище на бэкенде. На реальных примерах вы исследуете возможности сетевой конфигурации, подключение и настройку плагинов. Эта книга поможет вам стать искусным дирижером и обращаться с контейнерными системами любой сложности.
В книге рассмотрена новейшая версия Kubernetes 1.10.
Kubernetes – это система с открытым кодом, предназначенная для работы с контейнерными приложениями, их развертывания, масштабирования, управления ими. Если вы хотите запустить дополнительные контейнеры или автоматизировать управление, то вам не обойтись без Kubernetes.
Книга начинается с изучения основ Kubernetes, архитектуры и компоновки этой системы. Вы научитесь создавать микросервисы с сохранением состояния, ознакомитесь с такими продвинутыми возможностями, как горизонтальное автомасштабирование подов, выкатывание обновлений, квотирование ресурсов, обустроите долговременное хранилище на бэкенде. На реальных примерах вы исследуете возможности сетевой конфигурации, подключение и настройку плагинов. Эта книга поможет вам стать искусным дирижером и обращаться с контейнерными системами любой сложности.
Микросервисы_Паттерны_разработки_и_рефакторинга_Крис_Ричардсон.pdf
19.3 MB
Микросервисы. Паттерны разработки и рефакторинга (Крис Ричардсон).pdf
Если вам давно кажется, что вся разработка и развертывание в вашей компании донельзя замедлились – переходите на микросервисную архитектуру. Она обеспечивает непрерывную разработку, доставку и развертывание приложений любой сложности.
Книга, предназначенная для разработчиков и архитекторов из больших корпораций, рассказывает, как проектировать и писать приложения в духе микросервисной архитектуры. Также в ней описано, как делается рефакторинг крупного приложения – и монолит превращается в набор микросервисов.
В этой книге
• Как (и зачем!) использовать микросервисную архитектуру.
• Стратегии декомпозиции сервисов.
• Управление транзакциями и шаблоны запросов.
• Эффективные стратегии тестирования.
• Шаблоны развертывания, включая контейнеры и бессерверные платформы.
Если вам давно кажется, что вся разработка и развертывание в вашей компании донельзя замедлились – переходите на микросервисную архитектуру. Она обеспечивает непрерывную разработку, доставку и развертывание приложений любой сложности.
Книга, предназначенная для разработчиков и архитекторов из больших корпораций, рассказывает, как проектировать и писать приложения в духе микросервисной архитектуры. Также в ней описано, как делается рефакторинг крупного приложения – и монолит превращается в набор микросервисов.
В этой книге
• Как (и зачем!) использовать микросервисную архитектуру.
• Стратегии декомпозиции сервисов.
• Управление транзакциями и шаблоны запросов.
• Эффективные стратегии тестирования.
• Шаблоны развертывания, включая контейнеры и бессерверные платформы.
Apache_Hive_Essentials_Essential_techniques_to_help_you_process.pdf
3.9 MB
Apache Hive Essentials: Essential techniques to help you process, and get unique insights from, big data
What you will learn
▫️Create and set up the Hive environment
▫️Discover how to use Hive's definition language to describe data
▫️Discover interesting data by joining and filtering datasets in Hive
▫️Transform data by using Hive sorting, ordering, and functions
▫️Aggregate and sample data in different ways
▫️Boost Hive query performance and enhance data security in Hive
▫️Customize Hive to your needs by using user-defined functions and integrate it with other tools
What you will learn
▫️Create and set up the Hive environment
▫️Discover how to use Hive's definition language to describe data
▫️Discover interesting data by joining and filtering datasets in Hive
▫️Transform data by using Hive sorting, ordering, and functions
▫️Aggregate and sample data in different ways
▫️Boost Hive query performance and enhance data security in Hive
▫️Customize Hive to your needs by using user-defined functions and integrate it with other tools
Practical_Real_time_Data_Processing_and_Analytics_Shilpi_Saxena.pdf
13.4 MB
Practical Real-time Data Processing and Analytics: Distributed Computing and Event Processing using Apache Spark, Flink, Storm, and Kafka
What You Will Learn
▫️Get an introduction to the established real-time stack
▫️Understand the key integration of all the components
▫️Get a thorough understanding of the basic building blocks for real-time solution designing
▫️Garnish the search and visualization aspects for your real-time solution
▫️Get conceptually and practically acquainted with real-time analytics
▫️Be well equipped to apply the knowledge and create your own solutions
What You Will Learn
▫️Get an introduction to the established real-time stack
▫️Understand the key integration of all the components
▫️Get a thorough understanding of the basic building blocks for real-time solution designing
▫️Garnish the search and visualization aspects for your real-time solution
▫️Get conceptually and practically acquainted with real-time analytics
▫️Be well equipped to apply the knowledge and create your own solutions
What is the Parquet File Format and Why You Should Use It
https://www.upsolver.com/blog/apache-parquet-why-use
https://www.upsolver.com/blog/apache-parquet-why-use
Upsolver
What is the Parquet File Format? Use Cases & Benefits | Upsolver
It’s clear that Apache Parquet plays an important role in system performance when working with data lakes. Let’s take a closer look at Apache Parquet.
Forwarded from Data-comics
Читала отчёт по DevOps Setups benchmarking 2022 от Luca G и humanitec.
В целом, есть интересные моменты про разные типы команд разработчиков, ребята провели большую работу.
Но результаты преподнесли немного дезинформирующе.
Пример - на приложенной картинке.
Что не так? 😁
Ссылка на отчёт тут: https://humanitec.com/whitepapers/2021-devops-setups-benchmarking-report
Файл, кому интересно, приложу в комменты.
В целом, есть интересные моменты про разные типы команд разработчиков, ребята провели большую работу.
Но результаты преподнесли немного дезинформирующе.
Пример - на приложенной картинке.
Что не так? 😁
Ссылка на отчёт тут: https://humanitec.com/whitepapers/2021-devops-setups-benchmarking-report
Файл, кому интересно, приложу в комменты.
Google Data Engineering.pdf
978.9 KB
Google Data Engineering Cheatsheet
Complete Data Engineer’s Vocabulary | by Kovid Rathee | Towards Data Science
https://towardsdatascience.com/complete-data-engineers-vocabulary-87967e374fad
https://towardsdatascience.com/complete-data-engineers-vocabulary-87967e374fad
Medium
Complete Data Engineer’s Vocabulary
Concepts that data engineers must know in 10 words or less