Data Engineering / Инженерия данных / Data Engineer / DWH
1.89K subscribers
49 photos
7 videos
52 files
348 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Github Actions - Введение в CI/CD

00:00 - О чем курс
03:50 - Github вводный курс
12:35 - Начало работы с Github Actions
18:20 - Пишем первый workflow
29:17 - Автоматически тестируем React
37:57 - Что такое Actions
48:25 - Усложняем workflow (практика)
53:40 - Зависимость job и их порядок
01:00:18 - Context & Events
01:21:19 - Добавление cache
01:28:13 - Matrix
01:35:44 - Artifacts
01:45:25 - Environment & Secrets

https://www.youtube.com/watch?v=e0A2hDObLmg
Интересная модель монетизации у этого софта, вроде опенсоурс, но и есть разумные плюшки, которые можно получить только в платной версии (пользователи и роли + поддержка).
Ну и сама идея появления платформ с low-code подходом как open-source тоже интересная.
----
Tooljet | Open-source low-code platform to build internal tools

Extensible low-code framework for building business applications. Connect to databases, cloud storages, GraphQL, API endpoints, Airtable, etc and build apps using drag and drop application builder. Built using JavaScript/TypeScript.

https://www.tooljet.com/
Prescriber-ETL-data-pipeline

An End-to-End ETL data pipeline that leverages pyspark parallel processing to process about 25 million rows of data coming from a SaaS application using Apache Airflow as an orchestration tool and various data warehouse technologies and finally using Apache Superset to connect to DWH for generating BI dashboards for weekly reports

https://github.com/judeleonard/Prescriber-ETL-data-pipeline
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenMetadata vs DataHub

Один из пунктов "Против" решения Datahub - это их раздражающий функционал открытия Data Lineage.
Почему нельзя сделать кнопку открытия всего дерева - для меня загадка.
Пока при сравнении OpenMetadata vs DataHub лидирует OpenMetadata продукт.
👍1
Data Engineering with Python.pdf
10.5 MB
Data Engineering with Python
Packt Publishing

Key Features
▫️Become well-versed in data architectures, data preparation, and data optimization skills with the help of practical examples
▫️Design data models and learn how to extract, transform, and load (ETL) data using Python
▫️Schedule, automate, and monitor complex data pipelines in production

👉 @devops_dataops
🔥3
Data Engineering - Open Source Tools/Databases

A curated list of docker-compose files prepared for testing data engineering tools, databases and open source libraries.

Airflow
Cassandra
ClickHouse
Drill
Druid
ELK
Grafana-Prometheus
Hadoop
Kafka
LakeFS
Mariadb
Minio
Postgres
Redis
Spark
Superset
Trino
mongo


https://github.com/irbigdata/data-dockerfiles