#DataLake #ETL
✈️Рассмотрим кейс международной ИТ-компании AppsFlyer, которая создает SaaS-решения для маркетинговой аналитики в режиме онлайн. Далее разработки аналитического продукта Data Locker делится опытом оптимизации ETL-приложений Apache Spark для снижения стоимости обработки данных и ускорения вычислений.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/appsflyer-spark-optimization-case.html
✈️Рассмотрим кейс международной ИТ-компании AppsFlyer, которая создает SaaS-решения для маркетинговой аналитики в режиме онлайн. Далее разработки аналитического продукта Data Locker делится опытом оптимизации ETL-приложений Apache Spark для снижения стоимости обработки данных и ускорения вычислений.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/appsflyer-spark-optimization-case.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
Как сократить стоимость и время обработки данных в Spark-приложений: кейс AppsFlyer
Разделы и файлы: оптимизация приложений Apache Spark для снижения стоимости обработки данных и ускорения вычислений - пример от AppsFlyer
#BigData #DataLake
⛺️Рассмотрим, что такое LakeHouse.
Как эта новая гибридная архитектура управления данными объединяет 2 разнонаправленные парадигмы хранения информации, а также чего от нее ожидают бизнес-пользователи, дата-инженеры, аналитики и ML- специалисты.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/what-is-lakehouse.html
⛺️Рассмотрим, что такое LakeHouse.
Как эта новая гибридная архитектура управления данными объединяет 2 разнонаправленные парадигмы хранения информации, а также чего от нее ожидают бизнес-пользователи, дата-инженеры, аналитики и ML- специалисты.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/what-is-lakehouse.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
DWH + Data Lake или что такое LakeHouse
Что такое LakeHouse, чем это отличается от DWH и Data Lake, зачем нужна новая гибридная архитектура, история, достоинства и недостатки
#BigData #DataLake
♨️При том, что большинство современных озер данных представляют собой облачные объектные хранилища типа AWS S3, многие предприятия хранят данные в собственном кластере HDFS или даже MinIO.
Поэтому сегодня специально для обучения дата-инженеров и ИТ-архитекторов рассмотрим, что представляет собой это хранилище и насколько хорошо с ним взаимодействует Apache Spark
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/etl-with-spark-for-data-lake-on-minio.html
♨️При том, что большинство современных озер данных представляют собой облачные объектные хранилища типа AWS S3, многие предприятия хранят данные в собственном кластере HDFS или даже MinIO.
Поэтому сегодня специально для обучения дата-инженеров и ИТ-архитекторов рассмотрим, что представляет собой это хранилище и насколько хорошо с ним взаимодействует Apache Spark
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/etl-with-spark-for-data-lake-on-minio.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
ETL с Apache Spark в озере данных на MinIO
Что такое MinIO, чем это отличается от AWS S3 и Hadoop HDFS, как работает ETL с Apache Spark в этом озере данных: обучение дата-инженеров
#BigData #DataLake
🍔Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питания. Как устроена унифицированная платформа потоковой обработки событий в McDonald’s на базе облачного полностью управляемого сервиса Apache Kafka в AWS и что гарантирует высокую доступность и надежность решения.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/event-streaming-data-architecture-in-mcd-with-kafka-on-aws.html
🍔Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питания. Как устроена унифицированная платформа потоковой обработки событий в McDonald’s на базе облачного полностью управляемого сервиса Apache Kafka в AWS и что гарантирует высокую доступность и надежность решения.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/event-streaming-data-architecture-in-mcd-with-kafka-on-aws.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
Не просто бургеры: архитектура данных в McDonald’s с Apache Kafka
Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питан
#BigData #DataLake
🛢️Недавно мы рассматривали производительность ETL-конвейеров на Apache Spark с озером данных на MinIO.
Сегодня разберем, чем это легковесное объектное хранилище отличается от распределенной файловой системы Apache Hadoop и как перейти на него с HDFS.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/migration-from-hdfs-to-minio.html
🛢️Недавно мы рассматривали производительность ETL-конвейеров на Apache Spark с озером данных на MinIO.
Сегодня разберем, чем это легковесное объектное хранилище отличается от распределенной файловой системы Apache Hadoop и как перейти на него с HDFS.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/migration-from-hdfs-to-minio.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
Трудности перехода: миграция данных с HDFS на MinIO
Недавно мы рассматривали производительность ETL-конвейеров на Apache Spark с озером данных на
#BigData #DataLake #статьи
🍔Продолжая разговор про фреймворки реализации Data Lake, сегодня разберем стратегии миграции озера данных с Apache Hive на Iceberg.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/data-lake-migration-from-hive-to-iceberg.html
🍔Продолжая разговор про фреймворки реализации Data Lake, сегодня разберем стратегии миграции озера данных с Apache Hive на Iceberg.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/data-lake-migration-from-hive-to-iceberg.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
Как перейти от Apache Hive к Iceberg: стратегии миграции данных
Перевод озера данных с Apache Hive на Iceberg: плюсы и минусы 2-х популярных стратегий и тонкости их реализации для дата-инженер
#BigData #DataLake #статьи
📚Рассмотрим распространенные трудности корпоративных платформ обработки и хранения Big Data, а также как избежать этих проблем, используя современные методы и средства проектирования дата-архитектур и инструменты инженерии данных.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/data-platform-issues-and-how-to-fix-them.html
📚Рассмотрим распространенные трудности корпоративных платформ обработки и хранения Big Data, а также как избежать этих проблем, используя современные методы и средства проектирования дата-архитектур и инструменты инженерии данных.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/data-platform-issues-and-how-to-fix-them.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
ТОП-7 проблем с платформами данных и способы их обойти
Сегодня разберем распространенные трудности корпоративных платформ обработки и хране
#BigData #DataLake #статьи
🛍️Можно ли применять Apache Spark Structured Streaming для пакетных заданий и в каких случаях это целесообразно.
Разбираемся, как устроена потоковая передача событий в Spark Structured Streaming, с какой частотой разные режимы триггеров микропакетной обработки данных запускают потоковые вычисления и что выбрать дата-инженеру.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/spark-structured-streaming-triggers-for-batch-processing.html
🛍️Можно ли применять Apache Spark Structured Streaming для пакетных заданий и в каких случаях это целесообразно.
Разбираемся, как устроена потоковая передача событий в Spark Structured Streaming, с какой частотой разные режимы триггеров микропакетной обработки данных запускают потоковые вычисления и что выбрать дата-инженеру.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/spark-structured-streaming-triggers-for-batch-processing.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
Как применить триггеры Apache Spark Structured Streaming для пакетных заданий
Потоковая передача событий в Apache Spark Structured Streaming и ее использование для пакетных заданий: режимы триггеров в дата-инженерии
#BigData #DataLake #статьи
🧳Зачем нужно внешнее хранилище метаданных Apache Hive?
Apache Hive используется для доступа к данным, хранящимся в распределенной файловой системе Hadoop (HDFS) через стандартные SQL-запросы.
Это NoSQL-хранилище обеспечивает управление распределенными данными и метаданными благодаря службе Hive Metastore, которая предоставляет интерфейс через экономичный протокол для чтения, записи и обновления метаданных для таких сред, как Apache Spark, Presto и пр. HDFS, в свою очередь, часто используется в качестве основы для Data Lake, откуда BI-приложения и аналитические системы забирают нужную информацию.
Хранилища метаданных играют очень важную роль в работе Data Lake. По умолчанию Hive записывает информацию хранилища метаданных в базу данных MySQL в файловой системе главного узла. Хранилище содержит описание таблицы и базовых данных, на основе которых она построена, включая имена разделов, типы данных и т.д. Когда кластер завершает работу, все его узлы отключаются, включая главный узел. При этом локальные данные теряются, поскольку файловые системы узла используют эфемерное хранилище. Если нужно сохранить хранилище, следует использовать внешнее хранилище за пределами кластера Apache Hive.
Например, из сервисов Amazon это могут быть каталог данных Glue, RDS или Aurora.
Также можно запустить высокодоступную и масштабируемую службу Hive Metastore на AWS EKS, что соответствует безсерверной архитектуре обработки данных: не нужно поддерживать физический кластер для вычислений. (Запуск только службы Hive Metastore на кластере AWS EMR будет стоить дорого, поскольку придется платить за сервис EMR и EC2 главного узла, но это не масштабируется, поскольку работает на одном EC2.)
Для простого масштабируемого и высокодоступного способа размещения службы Hive Metastore можно использовать кластер EKS, упаковав хранилище метаданных Hive в контейнер и запускать их в масштабируемых подах Kubernetes.
Как это сделать, рассмотрим далее.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-metastore-service-on-aws-eks.html
🧳Зачем нужно внешнее хранилище метаданных Apache Hive?
Apache Hive используется для доступа к данным, хранящимся в распределенной файловой системе Hadoop (HDFS) через стандартные SQL-запросы.
Это NoSQL-хранилище обеспечивает управление распределенными данными и метаданными благодаря службе Hive Metastore, которая предоставляет интерфейс через экономичный протокол для чтения, записи и обновления метаданных для таких сред, как Apache Spark, Presto и пр. HDFS, в свою очередь, часто используется в качестве основы для Data Lake, откуда BI-приложения и аналитические системы забирают нужную информацию.
Хранилища метаданных играют очень важную роль в работе Data Lake. По умолчанию Hive записывает информацию хранилища метаданных в базу данных MySQL в файловой системе главного узла. Хранилище содержит описание таблицы и базовых данных, на основе которых она построена, включая имена разделов, типы данных и т.д. Когда кластер завершает работу, все его узлы отключаются, включая главный узел. При этом локальные данные теряются, поскольку файловые системы узла используют эфемерное хранилище. Если нужно сохранить хранилище, следует использовать внешнее хранилище за пределами кластера Apache Hive.
Например, из сервисов Amazon это могут быть каталог данных Glue, RDS или Aurora.
Также можно запустить высокодоступную и масштабируемую службу Hive Metastore на AWS EKS, что соответствует безсерверной архитектуре обработки данных: не нужно поддерживать физический кластер для вычислений. (Запуск только службы Hive Metastore на кластере AWS EMR будет стоить дорого, поскольку придется платить за сервис EMR и EC2 главного узла, но это не масштабируется, поскольку работает на одном EC2.)
Для простого масштабируемого и высокодоступного способа размещения службы Hive Metastore можно использовать кластер EKS, упаковав хранилище метаданных Hive в контейнер и запускать их в масштабируемых подах Kubernetes.
Как это сделать, рассмотрим далее.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-metastore-service-on-aws-eks.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
Как запустить службу внешнего хранилища метаданных Apache Hive в AWS EKS
Сегодня рассмотрим, зачем нужно внешнее хранилище метаданных для Apache Hive, и как запустит
#BigData #DataLake #статьи
🩻Чтение данных из AWS S3 с Apache Spark и boto3
Data Lake часто организуется на базе облачного объектного хранилища AWS S3. Чтобы использовать эти данные в задачах прогнозирования с помощью ML-моделей или анализировать их, необходимо сперва считать эту информацию. Это можно сделать с помощью заданий PySpark и учетных записей в IAM (Identity and Access Management) – службе Amazon, которая позволяет получить доступ к другим сервисам AWS.
IAM дает возможность указать, кто или что может получить доступ к сервисам и ресурсам AWS, централизованно управлять мелкими разрешениями и анализировать доступ для уточнения разрешений.
Роли IAM позволяют предоставить права доступа пользователям или сервисам, у которых обычно нет доступа к корпоративным AWS-ресурсам. Пользователям IAM или сервисам AWS можно присвоить роли для получения временных данных для доступа к данным и вызовов API. Это исключает необходимость предоставления долгосрочных данных для доступа или назначения разрешений для каждого объекта, которому требуется доступ к определенному ресурсу.
Разрешения предоставляют доступ к ресурсам AWS и предоставляются объектам IAM (пользователям, группам и ролям), которые не могут выполнять никаких действий на платформе AWS без необходимых разрешений. Чтобы предоставить объектам разрешения, можно назначить правило, определяющее тип доступа, допустимые действия и ресурсы для их выполнения. Также можно указать любые условия, которые должны выполняться для разрешения или запрещения доступа.
Чтобы считать данные из AWS S3 средствами Apache Spark, далее напишем небольшой PySpark-скрипт в интерактивной веб-среде Google Colab или Jupyter Notebook.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/reading-data-from-s3-with-spark-and-boto3-with-masking-and-aes.html
🩻Чтение данных из AWS S3 с Apache Spark и boto3
Data Lake часто организуется на базе облачного объектного хранилища AWS S3. Чтобы использовать эти данные в задачах прогнозирования с помощью ML-моделей или анализировать их, необходимо сперва считать эту информацию. Это можно сделать с помощью заданий PySpark и учетных записей в IAM (Identity and Access Management) – службе Amazon, которая позволяет получить доступ к другим сервисам AWS.
IAM дает возможность указать, кто или что может получить доступ к сервисам и ресурсам AWS, централизованно управлять мелкими разрешениями и анализировать доступ для уточнения разрешений.
Роли IAM позволяют предоставить права доступа пользователям или сервисам, у которых обычно нет доступа к корпоративным AWS-ресурсам. Пользователям IAM или сервисам AWS можно присвоить роли для получения временных данных для доступа к данным и вызовов API. Это исключает необходимость предоставления долгосрочных данных для доступа или назначения разрешений для каждого объекта, которому требуется доступ к определенному ресурсу.
Разрешения предоставляют доступ к ресурсам AWS и предоставляются объектам IAM (пользователям, группам и ролям), которые не могут выполнять никаких действий на платформе AWS без необходимых разрешений. Чтобы предоставить объектам разрешения, можно назначить правило, определяющее тип доступа, допустимые действия и ресурсы для их выполнения. Также можно указать любые условия, которые должны выполняться для разрешения или запрещения доступа.
Чтобы считать данные из AWS S3 средствами Apache Spark, далее напишем небольшой PySpark-скрипт в интерактивной веб-среде Google Colab или Jupyter Notebook.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/reading-data-from-s3-with-spark-and-boto3-with-masking-and-aes.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
Как безопасно читать данные из AWS S3 с Apache Spark и boto3
Чтобы сделать наши курсы по Apache Spark для дата-инженеров еще более полезными, сегодня расс
#ApacheIceberg #DataLake #Upsolver
Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает
Архитектура Data Lake: что не так с потоковыми обновлениями данных в Data Lake, как Apache Iceberg реализует эти операции и почему Upsolver решили улучшить этот формат
Проблема потоковых обновлений в Data Lake и 2 подхода к ее решению
Считается, что озеро данных (Data Lake) предлагают доступное и гибкое хранилище, позволяющее хранить данные любого типа.
Статья: https://bigdataschool.ru/blog/news/how-upsolver-upgrades-iceberg-for-operations-in-datalake.html
Курсы: https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает
Архитектура Data Lake: что не так с потоковыми обновлениями данных в Data Lake, как Apache Iceberg реализует эти операции и почему Upsolver решили улучшить этот формат
Проблема потоковых обновлений в Data Lake и 2 подхода к ее решению
Считается, что озеро данных (Data Lake) предлагают доступное и гибкое хранилище, позволяющее хранить данные любого типа.
Статья: https://bigdataschool.ru/blog/news/how-upsolver-upgrades-iceberg-for-operations-in-datalake.html
Курсы: https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"