Data Engineering / Инженерия данных / Data Engineer / DWH

Полный разбор SQL задач из Кремниевой долины (FAANG)

https://www.youtube.com/watch?v=kIRR7M8Ryp0

337 views13:34

Tarantool is an in-memory computing platform consisting of a database and an application server.

Key features of the database:
- MessagePack data format and MessagePack based client-server protocol.
- Two data engines: 100% in-memory with complete WAL-based persistence and an own implementation of LSM-tree, to use with large data sets.
- Multiple index types: HASH, TREE, RTREE, BITSET.
- Document oriented JSON path indexes.
- Asynchronous master-master replication.
- Synchronous quorum-based replication.
- RAFT-based automatic leader election for the single-leader configuration.
- Authentication and access control.
- ANSI SQL, including views, joins, referential and check constraints.
- Connectors for many programming languages.
- The database is a C extension of the application server and can be turned off.

GitHub

GitHub - tarantool/tarantool: Get your data in RAM. Get compute close to data. Enjoy the performance.

Get your data in RAM. Get compute close to data. Enjoy the performance. - tarantool/tarantool

277 views10:45

Data Engineering / Инженерия данных / Data Engineer / DWH

Data Governance Framework — Implementation Guide

https://jelvix.medium.com/data-governance-framework-implementation-guide-e5161afa454f

Medium

Data Governance Framework — Implementation Guide

Why Do Data-Driven Businesses Need a Data Governance Framework?

290 views15:37

Data Engineering / Инженерия данных / Data Engineer / DWH

Modern_Data_Engineering_with_Apache_Spark_A_Hands_On_Guide_for_Building.pdf

6.4 MB

Data Engineering with Apache Spark. A Hands-On Guide for Building Mission-Critical Streaming Applications.pdf

🔥1

385 views05:00

Data Engineering / Инженерия данных / Data Engineer / DWH

Docker и Docker-Compose Tutorial (Контейнеры, install, run, image, daemon, etc.)

Внутри статьи по разделам довольно много полезных видео прикреплено с YouTube.

https://ivan-shamaev.ru/docker-compose-tutorial-container-image-install/

Персональный блог Data Engineer | Ex-TeamLead BI Developer

Docker и Docker-Compose Tutorial (Контейнеры, install, run, image, daemon, etc.)

Docker и Docker-Compose Tutorial. Установка Docker. Архитектура Docker. Образы и контейнеры Docker. DockerFile. Основные команды. Bind Mount.

👍1

344 viewsedited 09:13

Data Engineering / Инженерия данных / Data Engineer / DWH

👍1

345 views12:15

Data Engineering / Инженерия данных / Data Engineer / DWH

Просто о CI/CD (Непрерывная интеграция и доставка)

https://youtu.be/7S1ndRRht6M

YouTube

Просто о CI/CD (Непрерывная интеграция и доставка)

#YauhenK #webDev #ПростоО #CICD

Добро пожаловать в очередной выпуск видеокаста, тема которого «Просто о CI/DI».
Continues integration, continues delivery и continues deployment, так расшифровавается это понятие.
На русский язык это можно перевести, как:…

376 views13:12

Data Engineering / Инженерия данных / Data Engineer / DWH

DevOps Roadmap
Step by step guide for DevOps, SRE or any other Operations Role in 2022

👉 @devops_dataops

https://roadmap.sh/devops

👍1

410 viewsedited 14:31

Data Engineering / Инженерия данных / Data Engineer / DWH

GitHub - DataTalksClub/data-engineering-zoomcamp: Free Data Engineering course!

https://github.com/DataTalksClub/data-engineering-zoomcamp

GitHub

GitHub - DataTalksClub/data-engineering-zoomcamp: Data Engineering Zoomcamp is a free nine-week course that covers the fundamentals…

Data Engineering Zoomcamp is a free nine-week course that covers the fundamentals of data engineering. - DataTalksClub/data-engineering-zoomcamp

👍3

421 views04:25

Data Engineering / Инженерия данных / Data Engineer / DWH

Хорошее обзорное видео про data engineering
https://youtu.be/qWru-b6m030

YouTube

How Data Engineering Works

So, the sole purpose of data engineering is to take data from the source and save it to make it available for analysis. Sounds simple, but it’s the matter of the system that works under the hood.

Watch our video to find out more about data engineering:
00:00…

👍1

354 views15:01

Data Engineering / Инженерия данных / Data Engineer / DWH

Forwarded from ChernovDev (Stanislav Chernov)

Серия статей про Apache Airflow c хабра:

Все, что вам нужно знать об Airflow DAGs, ч.1 — Основы и расписания
Все, что вам нужно знать об Airflow DAGs, ч.2 — Операторы и Датчики
Все, что вам нужно знать об Airflow DAGs, ч.3 — Проектирование DAG

👍1

293 views05:46

Data Engineering / Инженерия данных / Data Engineer / DWH

Forwarded from 🔋 Труба данных

- https://seattledataguy.substack.com/p/cataloging-data-catalogs

- https://github.com/opendatadiscovery/awesome-data-catalogs

- И целый топик в GitHub - https://github.com/topics/data-catalog

Каталог Каталогов Данных

Относительно недавно мы начали готовить почву для того, чтобы внедрять каталог данных и автоматическую документацию. Поэтому я сидел и исследовал, а что же доступно на рынке каталогов данных. В общем и целом, много чего, и платного и опен-сорс.
Поэтому, если вам предстоит похожая задача, вот несколько подборок (по большей части, пересекающиеся между собой).

@ohmydataengineer

SeattleDataGuy’s Newsletter

Cataloging Data Catalogs

And Building Data Infra

👍1

329 views05:47

Data Engineering / Инженерия данных / Data Engineer / DWH

Modern Data Orchestration Stack with Prefect 2.0, Airbyte and dbt

Узнать больше информации про Airbyte можно в группе 👉 @airbyte

https://blog.devgenius.io/modern-data-orchestration-stack-with-prefect-2-0-airbyte-and-dbt-e7c0e9b27add

Medium

Modern Data Orchestration Stack with Prefect 2.0, Airbyte and dbt

Using Publicly Available COVID-19 Data.

👍1

531 views12:11

Data Engineering / Инженерия данных / Data Engineer / DWH

Data Product Canvas — A practical framework for building high-performance data products

https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0

Medium

Data Product Canvas — A practical framework for building high-performance data products

How to avoid creating the right solution to the wrong problem?

👍1🔥1

361 views09:53

Data Engineering / Инженерия данных / Data Engineer / DWH

Lessons learned after 1 year with dbt

https://medium.com/@imweijian/lessons-learned-after-1-year-with-dbt-a7f0ccf85b12

Medium

Lessons learned after 1 year with dbt.

I spoke to some of my fellow data friends about dbt, and how it made our ELT pipelines more manageable. Not everyone agreed with our…

👍1

412 views07:06

Data Engineering / Инженерия данных / Data Engineer / DWH

Data Lake Architecture: How To Level Up Your Business To The Data-Driven World

https://towardsdatascience.com/data-lake-architecture-for-a-heavy-machinery-dealer-how-to-level-up-your-business-to-the-b41145e86b15

Medium

Data Lake Architecture: How To Level Up Your Business To The Data-Driven World

Better late than never

👍1

455 views08:09

Data Engineering / Инженерия данных / Data Engineer / DWH

Интересный кейс монетизации парсинга данных

20 млн рублей в год на парсинге сайтов — Разработка на vc.ru
https://vc.ru/dev/496144-20-mln-rubley-v-god-na-parsinge-saytov

vc.ru

20 млн рублей в год на парсинге сайтов — Разработка на vc.ru

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом.

👍1

494 views07:23

Data Engineering / Инженерия данных / Data Engineer / DWH

Data Engineering Wiki

It contains a constantly evolving collection of topics related to data engineering. Since we're at a very early stage, there's a lot of space to grow!

https://dataengineering.wiki/

🔥2👍1

543 views13:17

Data Engineering / Инженерия данных / Data Engineer / DWH

Basic ETL using Pyspark

https://blog.devgenius.io/basic-etl-using-pyspark-ed08b7e53cf4

Medium

Basic ETL using Pyspark

In this post, we will perform ETL operations using PySpark.

👍2🔥2

767 views05:54

Data Engineering / Инженерия данных / Data Engineer / DWH

Еще один open-source проект, который в первую очередь предназначен для команд, которые работают с dbt

██████╗░██████╗░████████╗
██╔══██╗██╔══██╗╚══██╔══╝
██║░░██║██████╦╝░░░██║░░░
██║░░██║██╔══██╗░░░██║░░░
██████╔╝██████╦╝░░░██║░░░
╚═════╝░╚═════╝░░░░╚═╝░░░

Open-source data observability for analytics engineers

💬 Data anomalies monitoring as dbt tests - Collect metrics and metadata over time, detect anomalies, as native dbt tests in your project!
💬 Data observability report - Generate a report for all dbt tests and share with your team.
💬 dbt artifacts uploader
💬 Slack alerts
💬 Data lineage made simple, reliable, and automated

👉 @devops_dataops

https://github.com/elementary-data/elementary

GitHub

GitHub - elementary-data/elementary: The dbt-native data observability solution for data & analytics engineers. Monitor your data…

The dbt-native data observability solution for data & analytics engineers. Monitor your data pipelines in minutes. Available as self-hosted or cloud service with premium features. - element...

👍1

567 viewsedited 15:44

About

Blog

Apps

Platform