Data Engineering / Инженерия данных / Data Engineer / DWH

- https://seattledataguy.substack.com/p/cataloging-data-catalogs

- https://github.com/opendatadiscovery/awesome-data-catalogs

- И целый топик в GitHub - https://github.com/topics/data-catalog

Каталог Каталогов Данных

Относительно недавно мы начали готовить почву для того, чтобы внедрять каталог данных и автоматическую документацию. Поэтому я сидел и исследовал, а что же доступно на рынке каталогов данных. В общем и целом, много чего, и платного и опен-сорс.
Поэтому, если вам предстоит похожая задача, вот несколько подборок (по большей части, пересекающиеся между собой).

@ohmydataengineer

SeattleDataGuy’s Newsletter

Cataloging Data Catalogs

And Building Data Infra

👍1

328 views05:47

Data Engineering / Инженерия данных / Data Engineer / DWH

Modern Data Orchestration Stack with Prefect 2.0, Airbyte and dbt

Узнать больше информации про Airbyte можно в группе 👉 @airbyte

https://blog.devgenius.io/modern-data-orchestration-stack-with-prefect-2-0-airbyte-and-dbt-e7c0e9b27add

Medium

Modern Data Orchestration Stack with Prefect 2.0, Airbyte and dbt

Using Publicly Available COVID-19 Data.

👍1

531 views12:11

Data Engineering / Инженерия данных / Data Engineer / DWH

Data Product Canvas — A practical framework for building high-performance data products

https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0

Medium

Data Product Canvas — A practical framework for building high-performance data products

How to avoid creating the right solution to the wrong problem?

👍1🔥1

361 views09:53

Data Engineering / Инженерия данных / Data Engineer / DWH

Lessons learned after 1 year with dbt

https://medium.com/@imweijian/lessons-learned-after-1-year-with-dbt-a7f0ccf85b12

Medium

Lessons learned after 1 year with dbt.

I spoke to some of my fellow data friends about dbt, and how it made our ELT pipelines more manageable. Not everyone agreed with our…

👍1

411 views07:06

Data Engineering / Инженерия данных / Data Engineer / DWH

Data Lake Architecture: How To Level Up Your Business To The Data-Driven World

https://towardsdatascience.com/data-lake-architecture-for-a-heavy-machinery-dealer-how-to-level-up-your-business-to-the-b41145e86b15

Medium

Data Lake Architecture: How To Level Up Your Business To The Data-Driven World

Better late than never

👍1

455 views08:09

Data Engineering / Инженерия данных / Data Engineer / DWH

Интересный кейс монетизации парсинга данных

20 млн рублей в год на парсинге сайтов — Разработка на vc.ru
https://vc.ru/dev/496144-20-mln-rubley-v-god-na-parsinge-saytov

vc.ru

20 млн рублей в год на парсинге сайтов — Разработка на vc.ru

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом.

👍1

492 views07:23

Data Engineering / Инженерия данных / Data Engineer / DWH

Data Engineering Wiki

It contains a constantly evolving collection of topics related to data engineering. Since we're at a very early stage, there's a lot of space to grow!

https://dataengineering.wiki/

🔥2👍1

542 views13:17

Data Engineering / Инженерия данных / Data Engineer / DWH

Basic ETL using Pyspark

https://blog.devgenius.io/basic-etl-using-pyspark-ed08b7e53cf4

Medium

Basic ETL using Pyspark

In this post, we will perform ETL operations using PySpark.

👍2🔥2

766 views05:54

Data Engineering / Инженерия данных / Data Engineer / DWH

Еще один open-source проект, который в первую очередь предназначен для команд, которые работают с dbt

██████╗░██████╗░████████╗
██╔══██╗██╔══██╗╚══██╔══╝
██║░░██║██████╦╝░░░██║░░░
██║░░██║██╔══██╗░░░██║░░░
██████╔╝██████╦╝░░░██║░░░
╚═════╝░╚═════╝░░░░╚═╝░░░

Open-source data observability for analytics engineers

💬 Data anomalies monitoring as dbt tests - Collect metrics and metadata over time, detect anomalies, as native dbt tests in your project!
💬 Data observability report - Generate a report for all dbt tests and share with your team.
💬 dbt artifacts uploader
💬 Slack alerts
💬 Data lineage made simple, reliable, and automated

👉 @devops_dataops

https://github.com/elementary-data/elementary

GitHub

GitHub - elementary-data/elementary: The dbt-native data observability solution for data & analytics engineers. Monitor your data…

The dbt-native data observability solution for data & analytics engineers. Monitor your data pipelines in minutes. Available as self-hosted or cloud service with premium features. - element...

👍1

565 viewsedited 15:44

Data Engineering / Инженерия данных / Data Engineer / DWH

Deep Dive on ClickHouse Sharding and Replication Webinar

Join the Altinity experts as we dig into ClickHouse sharding and replication, showing how they enable clusters that deliver fast queries over petabytes of data. We’ll start with basic definitions of each, then move to practical issues. This includes the setup of shards and replicas, defining schema, choosing sharding keys, loading data, and writing distributed queries. We’ll finish up with tips on performance optimization.

#ClickHouse

👉 @devops_dataops

https://www.youtube.com/watch?v=Vuh6NOluIxo

YouTube

Deep Dive on ClickHouse® Sharding and Replication | Tutorial for ClickHouse®

Experience the unmatched power of ClickHouse® on Hetzner: https://altinity.com/altinity-cloud-on-hetzner/

_______________________________

Join us as we dig into ClickHouse sharding and replication, showing how they enable clusters that deliver fast queries…

👍1

539 views12:23

Data Engineering / Инженерия данных / Data Engineer / DWH

Подборочка статей

1. HOW TO OPERATE APACHE AIRFLOW WITH GITLAB CI/CD
2. Running Airflow with Docker on EC2 + CI/CD with GitLab
3. Building CI/CD with Airflow, GitLab and Terraform in GCP

👉 @devops_dataops

👍6

915 viewsedited 10:25

Data Engineering / Инженерия данных / Data Engineer / DWH

GitHub - kestra-io/kestra

Kestra is an infinitely scalable orchestration and scheduling platform, creating, running, scheduling, and monitoring millions of complex pipelines.

👉 @devops_dataops

https://github.com/kestra-io/kestra

GitHub

GitHub - kestra-io/kestra: :zap: Universal Workflow Orchestration Platform — Code in any language, run anywhere. 800+ plugins for…

:zap: Universal Workflow Orchestration Platform — Code in any language, run anywhere. 800+ plugins for data, infrastructure, and AI automation. - kestra-io/kestra

👍1

427 views09:14

Data Engineering / Инженерия данных / Data Engineer / DWH

Настраиваем iptables с нуля
Хорошее видео, чтобы вникнуть в концепцию firewall на Linux
https://www.youtube.com/watch?v=Q0EC8kJlB64

YouTube

Настраиваем iptables с нуля

Защита сетевых соединений сейчас просто необходима буквально на каждом устройстве, подключенном к Интернет. Тем более, на сервере. Расскажем и покажем конфигурирование штатного сетевого экрана Linux через интерфейс Iptables.
Этот канал посвящён теме поддержки…

👍4

390 views17:51