SmartData 2024: Инструменты Data Quality (Дмитрий Руднев, Т-Банк)
https://youtu.be/cWHW4RgBibw?si=oUgwRVVuN6J6lOy1
https://youtu.be/cWHW4RgBibw?si=oUgwRVVuN6J6lOy1
YouTube
Дмитрий Руднев — Инструменты Data Quality: как, зачем, почему. Опыт Т-Банка
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/BkRmwc
Качество данных — это фундамент успешной работы с данными. Важную роль в этом процессе играют не только люди и процессы, но и инструменты…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/BkRmwc
Качество данных — это фундамент успешной работы с данными. Важную роль в этом процессе играют не только люди и процессы, но и инструменты…
Введение в Apache Iceberg. Основы, архитектура, как работает?
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Введение в Apache Iceberg. Основы, архитектура, как работает?
Введение в Apache Iceberg. Основы. Архитектура. Как работает и внутреннее устройство. Полное руководство, обучение, курс для Data Engineer
👍8🔥6
Smart Data 2024: Максим Гудзикевич, Кирилл Осинцев (Yandex) — "Как навести порядок в двух эксабайтах данных?"
Интро: "В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги данных, однако информация в них, как правило, заполняется пользователями собственноручно или берется из ERM-связей небольших БД. Мы же во внутреннем DataCatalog научились автоматически на основе логов ETL-операций и ad hoc-расчетов собирать Data Lineage системы YTsaurus."
https://youtu.be/dhDU-xA_qVQ?si=3RheeeRL-Xx6Yh4w
Интро: "В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги данных, однако информация в них, как правило, заполняется пользователями собственноручно или берется из ERM-связей небольших БД. Мы же во внутреннем DataCatalog научились автоматически на основе логов ETL-операций и ad hoc-расчетов собирать Data Lineage системы YTsaurus."
https://youtu.be/dhDU-xA_qVQ?si=3RheeeRL-Xx6Yh4w
YouTube
Максим Гудзикевич, Кирилл Осинцев — Как навести порядок в двух эксабайтах данных?
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/OMxXcv
В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/OMxXcv
В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги…
SmartData 2024: Валентин Пановский - Как кролик съел зелёную сливу и не умер: сказ о миграции на Iceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
YouTube
Валентин Пановский — Как кролик съел зеленую сливу и не умер: сказ о миграции на Iceberg
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
❤9💩1
SmartData 2024: Данил Сабиров (Яндекс GO) - Рецепт платформы потоковой обработки данных на Apache Flink
Презентация pdf
https://youtu.be/8QyD9dS6sZM?si=vrTtifypQX7u9kxb
Презентация pdf
https://youtu.be/8QyD9dS6sZM?si=vrTtifypQX7u9kxb
YouTube
Данил Сабиров — Рецепт платформы потоковой обработки данных на Apache Flink
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/sJ1PiN
Apache Flink в инфраструктуре Яндекс Go работает более 4 лет. Но до недавнего момента воспользоваться им могли лишь некоторые продвинутые…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/sJ1PiN
Apache Flink в инфраструктуре Яндекс Go работает более 4 лет. Но до недавнего момента воспользоваться им могли лишь некоторые продвинутые…
👍2
Перевод 5 главы из книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 5 Главы — Intermediate Моделирование Data Vault
❤9🔥6👍2
База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн
0:00 Начало
2:21 DBMS
5:50 Архитектуры DBMS
9:50 Storage
11:55 Paging
15:53 Overflow Page
19:44 Page Header
22:40 VACUUM
24:50 Row/Column oriented DB
29:08 System Catalog
30:10 Buffer Pool
33:10 LRU Cache
35:33 Sequential flood
36:56 Индексы
42:00 Hash индекс
45:10 B Trees
52:47 Bitmap индекс
54:50 Инвертированный индекс
56:29 Embedding
57:53 R Tree
1:04:19 LSM Storage
1:15:25 Bloom Filter
1:22:37 WAL, Manifest Log
1:23:12 Memtable
1:23:50 Skip List
1:28:15 Обобщение
1:30:03 Query Plan
1:31:52 Эквивалентные выражения
https://www.youtube.com/watch?v=i-FFVM4cIXQ
0:00 Начало
2:21 DBMS
5:50 Архитектуры DBMS
9:50 Storage
11:55 Paging
15:53 Overflow Page
19:44 Page Header
22:40 VACUUM
24:50 Row/Column oriented DB
29:08 System Catalog
30:10 Buffer Pool
33:10 LRU Cache
35:33 Sequential flood
36:56 Индексы
42:00 Hash индекс
45:10 B Trees
52:47 Bitmap индекс
54:50 Инвертированный индекс
56:29 Embedding
57:53 R Tree
1:04:19 LSM Storage
1:15:25 Bloom Filter
1:22:37 WAL, Manifest Log
1:23:12 Memtable
1:23:50 Skip List
1:28:15 Обобщение
1:30:03 Query Plan
1:31:52 Эквивалентные выражения
https://www.youtube.com/watch?v=i-FFVM4cIXQ
YouTube
База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн
База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн
Подарка на 10 000 подписчиков
Подарка на 10 000 подписчиков
🔥13👍3
Перевод 6 Главы - Продвинутое моделирование Data Vault 2.0 - Advanced Data Vault Modeling
Рассмотрено использование PIT- и Bridge-таблиц
https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/
#DataVault
Рассмотрено использование PIT- и Bridge-таблиц
https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 6 Главы — Продвинутое моделирование Data Vault 2.0 — Advanced Data Vault Modeling
Перевод 6 Главы Продвинутое моделирование Advanced Data Vault Modeling. Книга "Building a Scalable Data Warehouse with Data Vault 2.0"
👍13💯2
⚡️🔗 Большая подборка GitHub проектов с Data Vault примерами и тулзами
1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.
2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind
3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt
4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault
5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling
6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow
7️⃣ 👉🏻 https://t.me/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.
8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault
9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault
1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault
1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt
1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription
🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.
2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind
3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt
4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault
5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling
6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow
7️⃣ 👉🏻 https://t.me/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.
8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault
9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault
1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault
1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt
1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription
🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
GitHub
GitHub - Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses…
A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses (powered by dbt, an open source data engineering tool, registered trademark of dbt Labs) - Datavault-UK/...
🔥9❤4👏1
Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)
https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/
#DataVault #DimensionalModeling
https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/
#DataVault #DimensionalModeling
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 7 Главы — Dimensional Modeling (Data Vault 2.0)
Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)
🔥6❤4
Перевод первых трех глав книги Apache Airflow Best Practices
Глава 1. "Начало работы с Airflow 2.0"
Глава 2. "Основные концепции Airflow"
Глава 3. "Компоненты Airflow"
#Airflow
Глава 1. "Начало работы с Airflow 2.0"
Глава 2. "Основные концепции Airflow"
Глава 3. "Компоненты Airflow"
#Airflow
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Apache Airflow Best Practices — Глава 1 «Начало работы с Airflow 2.0»
Apache Airflow Best Practices - Глава 1 "Начало работы с Airflow 2.0"
🔥22👏2🤔1