How to Orchestrate an ETL Data Pipeline with Apache Airflow
https://www.freecodecamp.org/news/orchestrate-an-etl-data-pipeline-with-apache-airflow/
https://www.freecodecamp.org/news/orchestrate-an-etl-data-pipeline-with-apache-airflow/
freeCodeCamp.org
How to Orchestrate an ETL Data Pipeline with Apache Airflow
By Aviator Ifeanyichukwu Data Orchestration involves using different tools and technologies together to extract, transform, and load (ETL) data from multiple sources into a central repository. Data orchestration typically involves a combination of t...
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenMetadata vs DataHub
Один из пунктов "Против" решения Datahub - это их раздражающий функционал открытия Data Lineage.
Почему нельзя сделать кнопку открытия всего дерева - для меня загадка.
Пока при сравнении OpenMetadata vs DataHub лидирует OpenMetadata продукт.
Один из пунктов "Против" решения Datahub - это их раздражающий функционал открытия Data Lineage.
Почему нельзя сделать кнопку открытия всего дерева - для меня загадка.
Пока при сравнении OpenMetadata vs DataHub лидирует OpenMetadata продукт.
👍1
Data Engineering with Python.pdf
10.5 MB
Data Engineering with Python
Packt Publishing
Key Features
▫️Become well-versed in data architectures, data preparation, and data optimization skills with the help of practical examples
▫️Design data models and learn how to extract, transform, and load (ETL) data using Python
▫️Schedule, automate, and monitor complex data pipelines in production
👉 @devops_dataops
Packt Publishing
Key Features
▫️Become well-versed in data architectures, data preparation, and data optimization skills with the help of practical examples
▫️Design data models and learn how to extract, transform, and load (ETL) data using Python
▫️Schedule, automate, and monitor complex data pipelines in production
👉 @devops_dataops
🔥3
Data Engineering - Open Source Tools/Databases
A curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries.
Airflow
Cassandra
ClickHouse
Drill
Druid
ELK
Grafana-Prometheus
Hadoop
Kafka
LakeFS
Mariadb
Minio
Postgres
Redis
Spark
Superset
Trino
mongo
https://github.com/irbigdata/data-dockerfiles
A curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries.
Airflow
Cassandra
ClickHouse
Drill
Druid
ELK
Grafana-Prometheus
Hadoop
Kafka
LakeFS
Mariadb
Minio
Postgres
Redis
Spark
Superset
Trino
mongo
https://github.com/irbigdata/data-dockerfiles
GitHub
GitHub - irbigdata/data-dockerfiles: a curated list of docker-compose files prepared for testing data engineering tools, databases…
a curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries. - irbigdata/data-dockerfiles
Apache Druid in 5 minutes
https://youtu.be/X8ZnwwmCBAA
https://youtu.be/X8ZnwwmCBAA
YouTube
Apache Druid in 5 Minutes
Apache Druid is a real-time analytics database used by 1000s of companies like Netflix, Confluent, Salesforce, and Target. But what's the big deal? Why use Druid instead of a data warehouse - like Snowflake, BigQuery, or Redshift - or an operational database…
PySpark Tutorial
https://youtu.be/_C8kWso4ne4
GitHub code: https://github.com/krishnaik06/Pyspark-With-Python
https://youtu.be/_C8kWso4ne4
GitHub code: https://github.com/krishnaik06/Pyspark-With-Python
YouTube
PySpark Tutorial
Learn PySpark, an interface for Apache Spark in Python. PySpark is often used for large-scale data processing and machine learning.
💻 Code: https://github.com/krishnaik06/Pyspark-With-Python
✏️ Course from Krish Naik. Check out his channel: https://you…
💻 Code: https://github.com/krishnaik06/Pyspark-With-Python
✏️ Course from Krish Naik. Check out his channel: https://you…
mad2023.pdf
26.8 MB
The 2023 MAD (Machine Learning, Artificial Intelligence & Data) Landscape – Matt Turck
Source: https://mattturck.com/mad2023/
Source: https://mattturck.com/mad2023/
Подборка проектов с GitHub
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Engineering Python
Welcome to Engineering Python. This is a Python programming course for engineers.
This GitHub repository hosts the Jupyter Notebooks and Python source code for the open course on YouTube (http://youtube.com/yongtwang).
A tutorial on how to use these course materials is in this YouTube video: 02C Course Materials and Jupyter Notebook.
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Fun and useful projects with Python
You can find the corresponding tutorials on my channel: https://www.youtube.com/c/PythonEngineer
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Python Engineer Roadmap
Python can be used in a lot of computer science fields. In this repository, we have collected resources for each field of computer science that are related to Python.
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 PyTorch Beginner Tutorials from my YouTube channel
• Installation
• Tensor Basics
• Autograd
• Backpropagation
• Gradient Descent With Autograd and Backpropagation
• Training Pipeline: Model, Loss, and Optimizer
• Linear Regression
• Logistic Regression
• Dataset and DataLoader
• Dataset Transforms
• Softmax And Cross Entropy
• Activation Functions
• Feed-Forward Neural Net
• Convolutional Neural Net (CNN)
• Transfer Learning
• Tensorboard
• Save and Load Models
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Engineering Python
Welcome to Engineering Python. This is a Python programming course for engineers.
This GitHub repository hosts the Jupyter Notebooks and Python source code for the open course on YouTube (http://youtube.com/yongtwang).
A tutorial on how to use these course materials is in this YouTube video: 02C Course Materials and Jupyter Notebook.
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Fun and useful projects with Python
You can find the corresponding tutorials on my channel: https://www.youtube.com/c/PythonEngineer
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 Python Engineer Roadmap
Python can be used in a lot of computer science fields. In this repository, we have collected resources for each field of computer science that are related to Python.
〰️〰️〰️〰️〰️〰️〰️〰️
🔸 PyTorch Beginner Tutorials from my YouTube channel
• Installation
• Tensor Basics
• Autograd
• Backpropagation
• Gradient Descent With Autograd and Backpropagation
• Training Pipeline: Model, Loss, and Optimizer
• Linear Regression
• Logistic Regression
• Dataset and DataLoader
• Dataset Transforms
• Softmax And Cross Entropy
• Activation Functions
• Feed-Forward Neural Net
• Convolutional Neural Net (CNN)
• Transfer Learning
• Tensorboard
• Save and Load Models
❤1
😐 Docker's New Ultimatum Can Affect Open-Source Projects in a Big, Negative Way
https://news.itsfoss.com/docker-dropping-free-team-orgs/
https://news.itsfoss.com/docker-dropping-free-team-orgs/
It's FOSS News
Docker's New Ultimatum Can Affect Open-Source Projects in a Big, Negative Way
Docker can do better to accommodate open-source projects; what do you think?
Apache Airflow гайды:
▫️Руководство по использованию Apache Airflow от сбера
▫️GitHub -> GB: Настройка потоков данных. Apache Airflow
▫️Руководство по использованию Apache Airflow от сбера
▫️GitHub -> GB: Настройка потоков данных. Apache Airflow
Sber Developers Documentation
Документация для разработчиков
Руководство по использованию AirFlow (оркестратор для задач ETL) | Платформа данных Сбера (SberData Platform) – набор интегрированных сервисов работы с данными
Ловите гайд по Apache Superset Сбер 😁
https://developers.sber.ru/docs/ru/sdp/sdpanalytics/guidelines-reports-SDPBI
https://developers.sber.ru/docs/ru/sdp/sdpanalytics/guidelines-reports-SDPBI
Sber Developers Documentation
Документация для разработчиков
Руководство по разработке отчетов в SDP BI | Платформа данных Сбера (SberData Platform) – набор интегрированных сервисов работы с данными
❤2
Forwarded from Как мы делаем Яндекс
Яндекс выкладывает в опенсорс одну из основных инфраструктурных BigData-систем собственной разработки — YTsaurus. Это платформа, предназначенная для распределённого хранения и обработки больших данных.
Максим Бабенко, руководитель отдела технологий распределённых вычислений в Яндексе, рассказал историю возникновения YT, а также зачем нужна YTsaurus и где её можно применять.
В Github-репозитории — серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python.
Ссылки на посты на Хабре и Медиуме.
Максим Бабенко, руководитель отдела технологий распределённых вычислений в Яндексе, рассказал историю возникновения YT, а также зачем нужна YTsaurus и где её можно применять.
В Github-репозитории — серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python.
Ссылки на посты на Хабре и Медиуме.
👍4
Quick Reference
Here are some cheatsheets and quick references contributed by open source angels.
https://github.com/Fechin/reference
Here are some cheatsheets and quick references contributed by open source angels.
https://github.com/Fechin/reference
👍2
Overview and comparison ClickHouse & Redshift & Snowflake
https://www.velotio.com/engineering-blog/clickhouse-the-newest-data-store-in-your-big-data-arsenal
https://www.velotio.com/engineering-blog/clickhouse-the-newest-data-store-in-your-big-data-arsenal
GitHub - antdimot/awesome-lowcode
A collection of Awesome low-code development platform (LCDP).
https://github.com/antdimot/awesome-lowcode
A collection of Awesome low-code development platform (LCDP).
https://github.com/antdimot/awesome-lowcode
GitHub
GitHub - antdimot/awesome-lowcode: A collection of Awesome low-code development platform (LCDP).
A collection of Awesome low-code development platform (LCDP). - antdimot/awesome-lowcode
Apache AirFlow 2.5: декабрьский выпуск
В статье описаны 30 новинок версии 2.5
https://www.bigdataschool.ru/blog/airflow-2-5-release-overview.html
В статье описаны 30 новинок версии 2.5
https://www.bigdataschool.ru/blog/airflow-2-5-release-overview.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
Apache AirFlow 2.5: декабрьский выпуск
Не прошло и пары месяцев с выпуска Apache AirFlow 2.4, о чем мы писали здесь, как вышел новый рели
Forwarded from Секрет лапшичного супа
Яндекс выложил YT в opensource
Это очень большая новость для мира обработки данных. И огромный шаг для команды YT — ребята, поздравляю!
Многие слышали про ClickHouse, который уже успел сформировать свой клуб фанатов и даже форкнуться в отдельную компанию с приличной капитализацией. Но ClickHouse (CH) — это слой потребления данных. Чтобы получилась красивая витрина, которую удобно крутить в CH, нужно обработать несколько тонн данных — и сам CH для ETL-преобразований не годится совсем. И вот тут вы встанете перед выбором технологий хранилища. Если вы маленький или средний стартап, вы пойдете в облака — и правильно сделаете. Но если вам по какой-то причине нужно иметь чуткий контроль за своей инфраструктурой данных, вы уже управляете Hadoop-кластером, и тем более, если вам при этом жмёт — присмотритесь к YT.
В 2017 мы в Такси решили строить DWH на GreenPlum, потому что YT и YQL были ещё незрелыми — нам было больно по утрам видеть нерассчитанные витрины, потому что "ой, мы тут логику join'ов немного поменяли". В добавок join’ы были очень медленные и неэффективные, что очень критично для DWH. Теперь же таблицы-справочники до 80GB клеятся "на лету" (на нашем кластере). Когда стал вопрос о том, что DWH Маркета нуждается в нормальной архитектуре, технологиях и менеджерских подходах, я очень топил за сведение задачи к решённой — давайте возьмём всё у Такси. Но команде Маркета удалось убедить меня, и я с приятным удивлением обнаружил, что YT и инструментарий вокруг него доросли до той степени зрелости, когда ничего дополнительного и не нужно. Короче, мой рекомендасьон — 10 хадупов из 10!
Кстати, над любой таблицой, хранящейся в YT, можно выполнить SQL запрос, используя ClickHouse на ресурсах YT, просто добавив перед запросом строчку
Небольшой повод для гордости — в составе этого релиза есть Spark over YT. Эта штука сделана в Такси моей командой. Федя Лаврентьев увидел дырку в линейке технологий Яндекса по обработке данных и решил, что надо попробовать запустить Spark на YT. Федя нанял феноменальную Сашу Белоусову на эту задачу — и Саша за пару месяцев сделала работающий прототип, который решили развивать дальше.
PS. В opensource технологию назвали YTsaurus. Все эти годы в Яндексе она ласково называлась "Ыть" =)
https://habr.com/ru/company/yandex/blog/721526/
Это очень большая новость для мира обработки данных. И огромный шаг для команды YT — ребята, поздравляю!
Многие слышали про ClickHouse, который уже успел сформировать свой клуб фанатов и даже форкнуться в отдельную компанию с приличной капитализацией. Но ClickHouse (CH) — это слой потребления данных. Чтобы получилась красивая витрина, которую удобно крутить в CH, нужно обработать несколько тонн данных — и сам CH для ETL-преобразований не годится совсем. И вот тут вы встанете перед выбором технологий хранилища. Если вы маленький или средний стартап, вы пойдете в облака — и правильно сделаете. Но если вам по какой-то причине нужно иметь чуткий контроль за своей инфраструктурой данных, вы уже управляете Hadoop-кластером, и тем более, если вам при этом жмёт — присмотритесь к YT.
В 2017 мы в Такси решили строить DWH на GreenPlum, потому что YT и YQL были ещё незрелыми — нам было больно по утрам видеть нерассчитанные витрины, потому что "ой, мы тут логику join'ов немного поменяли". В добавок join’ы были очень медленные и неэффективные, что очень критично для DWH. Теперь же таблицы-справочники до 80GB клеятся "на лету" (на нашем кластере). Когда стал вопрос о том, что DWH Маркета нуждается в нормальной архитектуре, технологиях и менеджерских подходах, я очень топил за сведение задачи к решённой — давайте возьмём всё у Такси. Но команде Маркета удалось убедить меня, и я с приятным удивлением обнаружил, что YT и инструментарий вокруг него доросли до той степени зрелости, когда ничего дополнительного и не нужно. Короче, мой рекомендасьон — 10 хадупов из 10!
Кстати, над любой таблицой, хранящейся в YT, можно выполнить SQL запрос, используя ClickHouse на ресурсах YT, просто добавив перед запросом строчку
USE chyt.<clustername>;
Небольшой повод для гордости — в составе этого релиза есть Spark over YT. Эта штука сделана в Такси моей командой. Федя Лаврентьев увидел дырку в линейке технологий Яндекса по обработке данных и решил, что надо попробовать запустить Spark на YT. Федя нанял феноменальную Сашу Белоусову на эту задачу — и Саша за пару месяцев сделала работающий прототип, который решили развивать дальше.
PS. В opensource технологию назвали YTsaurus. Все эти годы в Яндексе она ласково называлась "Ыть" =)
https://habr.com/ru/company/yandex/blog/721526/
👍4
Forwarded from Инжиниринг Данных (Dmitry)
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks
В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.
Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:
📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions
PS В репозиторий я добавил следующие доп материалы:
🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition
🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks
Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.
Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks
В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.
Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:
📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions
PS В репозиторий я добавил следующие доп материалы:
🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition
🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks
Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.
Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API
В этом модуле мы познакомимся еще ближе с Apache Spark.
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌…
В этом видео вы узнаете про:
📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌…
Connect Apache NiFi to ClickHouse | ClickHouse Docs
https://clickhouse.com/docs/en/integrations/nifi
https://clickhouse.com/docs/en/integrations/nifi
Clickhouse
Connect Apache NiFi to ClickHouse | ClickHouse Docs
Stream data into ClickHouse using NiFi data pipelines