3 и 4 главы книги "Высоконагруженные приложения"
B-tree, OLAP OLTP, Hash Index. Kleppman 3 chapter
JSON, ProtoBuf, Data formats. Kleppman 4 chapter
B-tree, OLAP OLTP, Hash Index. Kleppman 3 chapter
JSON, ProtoBuf, Data formats. Kleppman 4 chapter
YouTube
B-tree, OLAP OLTP, Hash Index. Kleppman 3 chapter
Продолжаем путешествие в мире System Design!
На очереди темы B-tree, OLAP vs OLTP, Hash и другие основные понятия из 3 главы!
Представляю вашему вниманию серию вебинаров от Михаила Масягина:
Который разбирает главу за главой популярнейшей книги Мартина …
На очереди темы B-tree, OLAP vs OLTP, Hash и другие основные понятия из 3 главы!
Представляю вашему вниманию серию вебинаров от Михаила Масягина:
Который разбирает главу за главой популярнейшей книги Мартина …
🔥2
SoftwareMill Kafka Visualization
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Softwaremill
SoftwareMill Kafka Visualization
Using the Kafka Visualization tool you can simulate how data flows through a replicated Kafka topic, to gain a better understanding of the message processing model.
🔥7👍1
Обзор 5 главы "Replication in System Design"
Из книги "Высоконагруженные приложения"
https://youtu.be/KWIUkbcDhHc?si=Bahv3m8zf8z4qLMm
Из книги "Высоконагруженные приложения"
https://youtu.be/KWIUkbcDhHc?si=Bahv3m8zf8z4qLMm
YouTube
Replication in System Design
Replication, Master-Slave, Master-Master, Conflicts.
Linkedin Михаила:
https://kz.linkedin.com/in/masyagin1998
Временные метки:
00:00 - Intro
01:44 - Виды репликации
04:48 - Репликация с одним ведущим узлом
05:41 - Синхронная и асинхронная репликация, Отказы…
Linkedin Михаила:
https://kz.linkedin.com/in/masyagin1998
Временные метки:
00:00 - Intro
01:44 - Виды репликации
04:48 - Репликация с одним ведущим узлом
05:41 - Синхронная и асинхронная репликация, Отказы…
👍2
Перевод 4 Главы - Моделирование Data Vault 2.0
https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
В этой главе рассматриваются сущности, используемые в моделировании Data Vault, включая хабы (Hubs), линки/связи (Links) и сателлиты (Satellites). Показано, как идентифицировать бизнес-ключи в исходных данных и связывать их с другими бизнес-ключами в Data Vault с помощью линк-сущностей. Также рассмотрено, как выделять дополнительные атрибуты из исходных данных и моделировать их в виде сателлитных сущностей.
https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 4 Главы — Моделирование Data Vault 2.0 — Что такое Hub / Link / Satellite?
Перевод 4 Главы - Моделирование Data Vault 2.0 - Что такое Hub / Link / Satellite? Data Vault модель данных data warehouse DDS. Примеры. Книга
👍7
SmartData 2024 "dbt в деле: реальные кейсы и лайфхаки (Антон Александров)"
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
YouTube
Антон Александров — dbt в деле: реальные кейсы и лайфхаки
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
👍3
Тренировки по алгоритмам от Яндекса
https://yandex.ru/yaintern/training/algorithm-training
После регистрации приходит письмо с подготовительными лекциями на YT https://youtube.com/playlist?list=PL6Wui14DvQPz_vzmNVOYBRqML6l51lP0G&si=FdTT_WhXPNZnOx46
https://yandex.ru/yaintern/training/algorithm-training
После регистрации приходит письмо с подготовительными лекциями на YT https://youtube.com/playlist?list=PL6Wui14DvQPz_vzmNVOYBRqML6l51lP0G&si=FdTT_WhXPNZnOx46
Тренировки по алгоритмам от Яндекса
Новый сезон — новые задачи и форматы
👍1🔥1
3 ресурса для освоения GIT с интерактивными заданиями
https://learngitbranching.js.org/?locale=ru_RU - Learn Git Branching
Интерактивный тренажер, позволяющий визуализировать и отрабатывать команды Git в режиме реального времени. Подходит как для новичков, так и для опытных пользователей.
https://git-school.github.io/visualizing-git/ - Visualizing Git
Веб-приложение, которое наглядно демонстрирует, как различные команды Git влияют на структуру коммитов, помогая лучше понять внутренние процессы системы контроля версий.
https://ohmygit.org/ - Открытая игра, обучающая Git с помощью визуализации внутренних структур репозиториев в реальном времени. Имеет интерфейс в виде игровых карт для запоминания команд и интегрированный терминал для выполнения произвольных команд Git.
https://learngitbranching.js.org/?locale=ru_RU - Learn Git Branching
Интерактивный тренажер, позволяющий визуализировать и отрабатывать команды Git в режиме реального времени. Подходит как для новичков, так и для опытных пользователей.
https://git-school.github.io/visualizing-git/ - Visualizing Git
Веб-приложение, которое наглядно демонстрирует, как различные команды Git влияют на структуру коммитов, помогая лучше понять внутренние процессы системы контроля версий.
https://ohmygit.org/ - Открытая игра, обучающая Git с помощью визуализации внутренних структур репозиториев в реальном времени. Имеет интерфейс в виде игровых карт для запоминания команд и интегрированный терминал для выполнения произвольных команд Git.
learngitbranching.js.org
Learn Git Branching
An interactive Git visualization tool to educate and challenge!
🔥12👍3🆒1
SmartData 2024: Инструменты Data Quality (Дмитрий Руднев, Т-Банк)
https://youtu.be/cWHW4RgBibw?si=oUgwRVVuN6J6lOy1
https://youtu.be/cWHW4RgBibw?si=oUgwRVVuN6J6lOy1
YouTube
Дмитрий Руднев — Инструменты Data Quality: как, зачем, почему. Опыт Т-Банка
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/BkRmwc
Качество данных — это фундамент успешной работы с данными. Важную роль в этом процессе играют не только люди и процессы, но и инструменты…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/BkRmwc
Качество данных — это фундамент успешной работы с данными. Важную роль в этом процессе играют не только люди и процессы, но и инструменты…
Введение в Apache Iceberg. Основы, архитектура, как работает?
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Введение в Apache Iceberg. Основы, архитектура, как работает?
Введение в Apache Iceberg. Основы. Архитектура. Как работает и внутреннее устройство. Полное руководство, обучение, курс для Data Engineer
👍8🔥6
Smart Data 2024: Максим Гудзикевич, Кирилл Осинцев (Yandex) — "Как навести порядок в двух эксабайтах данных?"
Интро: "В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги данных, однако информация в них, как правило, заполняется пользователями собственноручно или берется из ERM-связей небольших БД. Мы же во внутреннем DataCatalog научились автоматически на основе логов ETL-операций и ad hoc-расчетов собирать Data Lineage системы YTsaurus."
https://youtu.be/dhDU-xA_qVQ?si=3RheeeRL-Xx6Yh4w
Интро: "В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги данных, однако информация в них, как правило, заполняется пользователями собственноручно или берется из ERM-связей небольших БД. Мы же во внутреннем DataCatalog научились автоматически на основе логов ETL-операций и ad hoc-расчетов собирать Data Lineage системы YTsaurus."
https://youtu.be/dhDU-xA_qVQ?si=3RheeeRL-Xx6Yh4w
YouTube
Максим Гудзикевич, Кирилл Осинцев — Как навести порядок в двух эксабайтах данных?
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/OMxXcv
В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/OMxXcv
В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги…
SmartData 2024: Валентин Пановский - Как кролик съел зелёную сливу и не умер: сказ о миграции на Iceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
YouTube
Валентин Пановский — Как кролик съел зеленую сливу и не умер: сказ о миграции на Iceberg
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
❤9💩1
SmartData 2024: Данил Сабиров (Яндекс GO) - Рецепт платформы потоковой обработки данных на Apache Flink
Презентация pdf
https://youtu.be/8QyD9dS6sZM?si=vrTtifypQX7u9kxb
Презентация pdf
https://youtu.be/8QyD9dS6sZM?si=vrTtifypQX7u9kxb
YouTube
Данил Сабиров — Рецепт платформы потоковой обработки данных на Apache Flink
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/sJ1PiN
Apache Flink в инфраструктуре Яндекс Go работает более 4 лет. Но до недавнего момента воспользоваться им могли лишь некоторые продвинутые…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/sJ1PiN
Apache Flink в инфраструктуре Яндекс Go работает более 4 лет. Но до недавнего момента воспользоваться им могли лишь некоторые продвинутые…
👍2
Перевод 5 главы из книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 5 Главы — Intermediate Моделирование Data Vault
❤9🔥6👍2
База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн
0:00 Начало
2:21 DBMS
5:50 Архитектуры DBMS
9:50 Storage
11:55 Paging
15:53 Overflow Page
19:44 Page Header
22:40 VACUUM
24:50 Row/Column oriented DB
29:08 System Catalog
30:10 Buffer Pool
33:10 LRU Cache
35:33 Sequential flood
36:56 Индексы
42:00 Hash индекс
45:10 B Trees
52:47 Bitmap индекс
54:50 Инвертированный индекс
56:29 Embedding
57:53 R Tree
1:04:19 LSM Storage
1:15:25 Bloom Filter
1:22:37 WAL, Manifest Log
1:23:12 Memtable
1:23:50 Skip List
1:28:15 Обобщение
1:30:03 Query Plan
1:31:52 Эквивалентные выражения
https://www.youtube.com/watch?v=i-FFVM4cIXQ
0:00 Начало
2:21 DBMS
5:50 Архитектуры DBMS
9:50 Storage
11:55 Paging
15:53 Overflow Page
19:44 Page Header
22:40 VACUUM
24:50 Row/Column oriented DB
29:08 System Catalog
30:10 Buffer Pool
33:10 LRU Cache
35:33 Sequential flood
36:56 Индексы
42:00 Hash индекс
45:10 B Trees
52:47 Bitmap индекс
54:50 Инвертированный индекс
56:29 Embedding
57:53 R Tree
1:04:19 LSM Storage
1:15:25 Bloom Filter
1:22:37 WAL, Manifest Log
1:23:12 Memtable
1:23:50 Skip List
1:28:15 Обобщение
1:30:03 Query Plan
1:31:52 Эквивалентные выражения
https://www.youtube.com/watch?v=i-FFVM4cIXQ
YouTube
База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн
База по Базам Данных - Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн
Подарка на 10 000 подписчиков
Подарка на 10 000 подписчиков
🔥13👍3
Перевод 6 Главы - Продвинутое моделирование Data Vault 2.0 - Advanced Data Vault Modeling
Рассмотрено использование PIT- и Bridge-таблиц
https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/
#DataVault
Рассмотрено использование PIT- и Bridge-таблиц
https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 6 Главы — Продвинутое моделирование Data Vault 2.0 — Advanced Data Vault Modeling
Перевод 6 Главы Продвинутое моделирование Advanced Data Vault Modeling. Книга "Building a Scalable Data Warehouse with Data Vault 2.0"
👍13💯2
⚡️🔗 Большая подборка GitHub проектов с Data Vault примерами и тулзами
1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.
2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind
3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt
4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault
5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling
6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow
7️⃣ 👉🏻 https://t.me/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.
8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault
9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault
1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault
1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt
1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription
🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.
2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind
3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt
4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault
5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling
6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow
7️⃣ 👉🏻 https://t.me/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.
8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault
9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault
1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault
1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt
1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription
🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
GitHub
GitHub - Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses…
A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses (powered by dbt, an open source data engineering tool, registered trademark of dbt Labs) - Datavault-UK/...
🔥9❤4👏1
Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)
https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/
#DataVault #DimensionalModeling
https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/
#DataVault #DimensionalModeling
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 7 Главы — Dimensional Modeling (Data Vault 2.0)
Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)
🔥6❤4
Перевод первых трех глав книги Apache Airflow Best Practices
Глава 1. "Начало работы с Airflow 2.0"
Глава 2. "Основные концепции Airflow"
Глава 3. "Компоненты Airflow"
#Airflow
Глава 1. "Начало работы с Airflow 2.0"
Глава 2. "Основные концепции Airflow"
Глава 3. "Компоненты Airflow"
#Airflow
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Apache Airflow Best Practices — Глава 1 «Начало работы с Airflow 2.0»
Apache Airflow Best Practices - Глава 1 "Начало работы с Airflow 2.0"
🔥22👏2🤔1