Школа Больших Данных
566 subscribers
117 photos
711 links
Канал Школы Больших Данных https://www.bigdataschool.ru/ - обучение технологиям Big Data: разработка приложений и администрирование кластеров Hadoop, Kafka, Spark, NoSQL, Python, ML и DS.
Тел: +7 (495) 41-41-121
Контакты: @Bigdataschool_msk @olga_burykh
Download Telegram
#DataLake #ETL
✈️Рассмотрим кейс международной ИТ-компании AppsFlyer, которая создает SaaS-решения для маркетинговой аналитики в режиме онлайн. Далее разработки аналитического продукта Data Locker делится опытом оптимизации ETL-приложений Apache Spark для снижения стоимости обработки данных и ускорения вычислений.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/appsflyer-spark-optimization-case.html
#BigData #DataLake
⛺️Рассмотрим, что такое LakeHouse.
Как эта новая гибридная архитектура управления данными объединяет 2 разнонаправленные парадигмы хранения информации, а также чего от нее ожидают бизнес-пользователи, дата-инженеры, аналитики и ML- специалисты.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/what-is-lakehouse.html
#BigData #DataLake
♨️При том, что большинство современных озер данных представляют собой облачные объектные хранилища типа AWS S3, многие предприятия хранят данные в собственном кластере HDFS или даже MinIO.

Поэтому сегодня специально для обучения дата-инженеров и ИТ-архитекторов рассмотрим, что представляет собой это хранилище и насколько хорошо с ним взаимодействует Apache Spark
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/etl-with-spark-for-data-lake-on-minio.html
#BigData #DataLake
🍔Сегодня заглянем под капот ИТ-инфраструктуры самой знаменитой франшизы быстрого питания. Как устроена унифицированная платформа потоковой обработки событий в McDonald’s на базе облачного полностью управляемого сервиса Apache Kafka в AWS и что гарантирует высокую доступность и надежность решения.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/event-streaming-data-architecture-in-mcd-with-kafka-on-aws.html
#BigData #DataLake
🛢️Недавно мы рассматривали производительность ETL-конвейеров на Apache Spark с озером данных на MinIO.
Сегодня разберем, чем это легковесное объектное хранилище отличается от распределенной файловой системы Apache Hadoop и как перейти на него с HDFS.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/migration-from-hdfs-to-minio.html
#BigData #DataLake #статьи
📚Рассмотрим распространенные трудности корпоративных платформ обработки и хранения Big Data, а также как избежать этих проблем, используя современные методы и средства проектирования дата-архитектур и инструменты инженерии данных.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/data-platform-issues-and-how-to-fix-them.html
#BigData #DataLake #статьи
🛍️Можно ли применять Apache Spark Structured Streaming для пакетных заданий и в каких случаях это целесообразно.
Разбираемся, как устроена потоковая передача событий в Spark Structured Streaming, с какой частотой разные режимы триггеров микропакетной обработки данных запускают потоковые вычисления и что выбрать дата-инженеру.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/spark-structured-streaming-triggers-for-batch-processing.html
#BigData #DataLake #статьи
🧳Зачем нужно внешнее хранилище метаданных Apache Hive?
Apache Hive используется для доступа к данным, хранящимся в распределенной файловой системе Hadoop (HDFS) через стандартные SQL-запросы.
Это NoSQL-хранилище обеспечивает управление распределенными данными и метаданными благодаря службе Hive Metastore, которая предоставляет интерфейс через экономичный протокол для чтения, записи и обновления метаданных для таких сред, как Apache Spark, Presto и пр. HDFS, в свою очередь, часто используется в качестве основы для Data Lake, откуда BI-приложения и аналитические системы забирают нужную информацию.

Хранилища метаданных играют очень важную роль в работе Data Lake. По умолчанию Hive записывает информацию хранилища метаданных в базу данных MySQL в файловой системе главного узла. Хранилище содержит описание таблицы и базовых данных, на основе которых она построена, включая имена разделов, типы данных и т.д. Когда кластер завершает работу, все его узлы отключаются, включая главный узел. При этом локальные данные теряются, поскольку файловые системы узла используют эфемерное хранилище. Если нужно сохранить хранилище, следует использовать внешнее хранилище за пределами кластера Apache Hive.
Например, из сервисов Amazon это могут быть каталог данных Glue, RDS или Aurora.

Также можно запустить высокодоступную и масштабируемую службу Hive Metastore на AWS EKS, что соответствует безсерверной архитектуре обработки данных: не нужно поддерживать физический кластер для вычислений. (Запуск только службы Hive Metastore на кластере AWS EMR будет стоить дорого, поскольку придется платить за сервис EMR и EC2 главного узла, но это не масштабируется, поскольку работает на одном EC2.)

Для простого масштабируемого и высокодоступного способа размещения службы Hive Metastore можно использовать кластер EKS, упаковав хранилище метаданных Hive в контейнер и запускать их в масштабируемых подах Kubernetes.

Как это сделать, рассмотрим далее.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-metastore-service-on-aws-eks.html
#BigData #DataLake #статьи
🩻Чтение данных из AWS S3 с Apache Spark и boto3

Data Lake часто организуется на базе облачного объектного хранилища AWS S3. Чтобы использовать эти данные в задачах прогнозирования с помощью ML-моделей или анализировать их, необходимо сперва считать эту информацию. Это можно сделать с помощью заданий PySpark и учетных записей в IAM (Identity and Access Management) – службе Amazon, которая позволяет получить доступ к другим сервисам AWS.
IAM дает возможность указать, кто или что может получить доступ к сервисам и ресурсам AWS, централизованно управлять мелкими разрешениями и анализировать доступ для уточнения разрешений.

Роли IAM позволяют предоставить права доступа пользователям или сервисам, у которых обычно нет доступа к корпоративным AWS-ресурсам. Пользователям IAM или сервисам AWS можно присвоить роли для получения временных данных для доступа к данным и вызовов API. Это исключает необходимость предоставления долгосрочных данных для доступа или назначения разрешений для каждого объекта, которому требуется доступ к определенному ресурсу.

Разрешения предоставляют доступ к ресурсам AWS и предоставляются объектам IAM (пользователям, группам и ролям), которые не могут выполнять никаких действий на платформе AWS без необходимых разрешений. Чтобы предоставить объектам разрешения, можно назначить правило, определяющее тип доступа, допустимые действия и ресурсы для их выполнения. Также можно указать любые условия, которые должны выполняться для разрешения или запрещения доступа.

Чтобы считать данные из AWS S3 средствами Apache Spark, далее напишем небольшой PySpark-скрипт в интерактивной веб-среде Google Colab или Jupyter Notebook.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/reading-data-from-s3-with-spark-and-boto3-with-masking-and-aes.html
#ApacheIceberg #DataLake #Upsolver
Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает

Архитектура Data Lake: что не так с потоковыми обновлениями данных в Data Lake, как Apache Iceberg реализует эти операции и почему Upsolver решили улучшить этот формат

Проблема потоковых обновлений в Data Lake и 2 подхода к ее решению
Считается, что озеро данных (Data Lake) предлагают доступное и гибкое хранилище, позволяющее хранить данные любого типа.
Статья: https://bigdataschool.ru/blog/news/how-upsolver-upgrades-iceberg-for-operations-in-datalake.html
Курсы:
https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт:
https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"