Инжиниринг Данных

Теперь про Data Lakehouse

Архитектура data lakehouse объединяет преимущества хранилищ данных и озер данных, предоставляя высокую производительность и простоту использования, а также низкие затраты и гибкость.

Основные преимущества Data Lakehouse:

Сочетание хранилищ и озер данных: Data lakehouse использует механизмы, которые позволяют реализовать функции, характерные для хранилищ данных (гарантии ACID, лучшая производительность, консистентность), на основе инфраструктуры озер данных.
Единое хранилище данных: Данные хранятся в тех же местах и форматах, что и в озере данных, но за счет нового формата таблиц улучшаются производительность и гарантии ACID.

Уменьшение копий данных: Благодаря ACID-гарантиям и улучшенной производительности можно выполнять обновления и другие манипуляции с данными в lakehouse, снижая количество копий данных и, соответственно, затраты на хранение и вычисления.
Быстрые запросы: Оптимизации на уровне движка запросов, формата таблиц и формата файлов позволяют получать инсайты быстрее.

Исторические снимки данных (snapshots): Форматы таблиц lakehouse позволяют сохранять исторические снимки данных, что облегчает восстановление и проверку данных.

Экономичность: Data lakehouse помогает снизить затраты на хранение и вычисления по сравнению с традиционными хранилищами данных.

Открытая архитектура: Использование открытых форматов, таких как Apache Iceberg и Apache Parquet, предотвращает зависимость от поставщиков и позволяет использовать различные инструменты для работы с данными.

Если по простому, то Lakehouse это взять лучшие свойства Data Warehouse и лучшие свойства Data Lake и смешать их.

Lakehouse = DW + DL.

Самый яркий пример Lakehouse это Databricks.

Что такое Databricks? Это просто виртуальные машины со Spark, которые читают данных из облачного сториджа (AWS S3, Azure Storage, GCP bucket). Если данные у нас в формате Parquet, ORC, CSV, JSON, то это просто обычное озеро данных. А вот если мы будем использовать специальный формат таблицы (table format) Delta, Iceberg, Hudi, то уже Lakehouse. Там конечно вам расскажут про Unified Analytics (типа все вместе трудятся в одном workspace), Unity Catalog, Delta Streaming, Repos и другие фичи, которые созданы для Enterprise.

Другой пример такой архитектуры это Snowflake. Мы привыкли, что Snowflake это хранилище данных, хотя по факту это такой же decouple между Storage (sharing everything) и Compute (sharing nothing). Единственный минус (он же и плюс) - данные хранятся в свое собственном формате, чтобы клиенты из-за высоких расходов кредитов не убежали к Databricks🤱

Еще пример Lakehouse:
- AWS Athena + Iceberg
- Trino + Iceberg
- Synapse Serverless + Delta

Выбор как это хостить:
- ( Managed Service) ( Пример Athena, Synapse Serverless, GCP Dataproc Spark, EMR Servrless, AWS Glue)
- (Managed) Kubernetes (Пример Trino, Clickhouse, DuckDB)
- PaaS (Пример Databricks, AWS, EMR, Azure HDInsights, Synapse Spark)
- On-premise (Hadoop + HDFS)

Когда что использовать? Ну здесь сами понимаете, зависит от команды и бюджета. Можно просто и дорого, можно сложно и дорого (возможно подешевле за инфру, но команда будет больше и дороже).

Мне как простому инженеру вообще все-равно, главное чтобы ЗП капнула вовремя😊

А так прикольно понимать разницу и уметь работать с этим зоопарком🥂

Please open Telegram to view this post

VIEW IN TELEGRAM

💯28🍌16🗿5❤‍🔥2😈1🎄1

9.89K viewsDmitry, edited 05:22