Data Engineering / Инженерия данных / Data Engineer / DWH

SmartData 2024: Инструменты Data Quality (Дмитрий Руднев, Т-Банк)

https://youtu.be/cWHW4RgBibw?si=oUgwRVVuN6J6lOy1

Дмитрий Руднев — Инструменты Data Quality: как, зачем, почему. Опыт Т-Банка

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/BkRmwc

Качество данных — это фундамент успешной работы с данными. Важную роль в этом процессе играют не только люди и процессы, но и инструменты…

1.99K views13:38

Data Engineering / Инженерия данных / Data Engineer / DWH

Введение в Apache Iceberg. Основы, архитектура, как работает?

Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.

https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/

#iceberg #trino #parquet #lakehouse

Персональный блог Data Engineer | Ex-TeamLead BI Developer

Введение в Apache Iceberg. Основы, архитектура, как работает?

Введение в Apache Iceberg. Основы. Архитектура. Как работает и внутреннее устройство. Полное руководство, обучение, курс для Data Engineer

👍8🔥6

2.12K views07:04

Data Engineering / Инженерия данных / Data Engineer / DWH

Smart Data 2024: Максим Гудзикевич, Кирилл Осинцев (Yandex) — "Как навести порядок в двух эксабайтах данных?"

Интро: "В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги данных, однако информация в них, как правило, заполняется пользователями собственноручно или берется из ERM-связей небольших БД. Мы же во внутреннем DataCatalog научились автоматически на основе логов ETL-операций и ad hoc-расчетов собирать Data Lineage системы YTsaurus."

https://youtu.be/dhDU-xA_qVQ?si=3RheeeRL-Xx6Yh4w

YouTube

Максим Гудзикевич, Кирилл Осинцев — Как навести порядок в двух эксабайтах данных?

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/OMxXcv

В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги…

1.97K views06:01

Data Engineering / Инженерия данных / Data Engineer / DWH

SmartData 2024: Валентин Пановский - Как кролик съел зелёную сливу и не умер: сказ о миграции на Iceberg

Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).

https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X

#trino #apacheiceberg

YouTube

Валентин Пановский — Как кролик съел зеленую сливу и не умер: сказ о миграции на Iceberg

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS

Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…

❤9💩1

1.77K viewsedited 06:30

Data Engineering / Инженерия данных / Data Engineer / DWH

SmartData 2024: Данил Сабиров (Яндекс GO) - Рецепт платформы потоковой обработки данных на Apache Flink

Презентация pdf

https://youtu.be/8QyD9dS6sZM?si=vrTtifypQX7u9kxb

YouTube

Данил Сабиров — Рецепт платформы потоковой обработки данных на Apache Flink

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/sJ1PiN

Apache Flink в инфраструктуре Яндекс Go работает более 4 лет. Но до недавнего момента воспользоваться им могли лишь некоторые продвинутые…

👍2

1.55K views06:03

Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод 5 главы из книги "Building a Scalable Data Warehouse with Data Vault 2.0"

https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/

#DataVault

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод 5 Главы — Intermediate Моделирование Data Vault

❤9🔥6👍2

1.18K viewsedited 06:02

Data Engineering / Инженерия данных / Data Engineer / DWH

База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн

0:00 Начало
2:21 DBMS
5:50 Архитектуры DBMS
9:50 Storage
11:55 Paging
15:53 Overflow Page
19:44 Page Header
22:40 VACUUM
24:50 Row/Column oriented DB
29:08 System Catalog
30:10 Buffer Pool
33:10 LRU Cache
35:33 Sequential flood
36:56 Индексы
42:00 Hash индекс
45:10 B Trees
52:47 Bitmap индекс
54:50 Инвертированный индекс
56:29 Embedding
57:53 R Tree
1:04:19 LSM Storage
1:15:25 Bloom Filter
1:22:37 WAL, Manifest Log
1:23:12 Memtable
1:23:50 Skip List
1:28:15 Обобщение
1:30:03 Query Plan
1:31:52 Эквивалентные выражения

https://www.youtube.com/watch?v=i-FFVM4cIXQ

YouTube

База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн

База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн

Подарка на 10 000 подписчиков

🔥13👍3

2.11K views07:04

Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод 6 Главы - Продвинутое моделирование Data Vault 2.0 - Advanced Data Vault Modeling

Рассмотрено использование PIT- и Bridge-таблиц

https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/

#DataVault

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод 6 Главы — Продвинутое моделирование Data Vault 2.0 — Advanced Data Vault Modeling

Перевод 6 Главы Продвинутое моделирование Advanced Data Vault Modeling. Книга "Building a Scalable Data Warehouse with Data Vault 2.0"

👍13💯2

1.09K views06:30

Data Engineering / Инженерия данных / Data Engineer / DWH

⚡️🔗 Большая подборка GitHub проектов с Data Vault примерами и тулзами

1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.

2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind

3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt

4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault

5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling

6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow

7️⃣ 👉🏻 https://t.me/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.

8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault

9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault

1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault

1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt

1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription

🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов

🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path

GitHub

GitHub - Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses…

A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses (powered by dbt, an open source data engineering tool, registered trademark of dbt Labs) - Datavault-UK/...

🔥9❤4👏1

1.41K views06:04

Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)

https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/

#DataVault #DimensionalModeling

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод 7 Главы — Dimensional Modeling (Data Vault 2.0)

Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)

🔥6❤4

896 views06:00