Школа Больших Данных

#XML #Greenplum #СУБД
Обработка XML-документов в Greenplum

Как Greenplum хранит и обрабатывает XML-документы, зачем для этого нужны утилиты gpfdist и gpload, каковы их конфигурации для выполнения XSLT-преобразований XML-файлов и их загрузки/выборки во внешние таблицы MPP-СУБД.

Работа с XML-документами и XSLT-преобразования в Greenplum

Greenplum, как и PostgreSQL, также поддерживает работу со сложными типами данных и может вести себя подобно документо-ориентированной СУБД, обрабатывая не только JSON, но и XML-документы.
Полная статья: https://bigdataschool.ru/blog/news/greenplum/xml-processing-in-greenplum.html
Курсы: https://bigdataschool.ru/courses/greenplum-for-data-engineers https://bigdataschool.ru/courses/greenplum-arenadata-administration
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

260 viewsedited 14:48

#ClickHouse #СУБД #шарды
Оптимизация производительности ClickHouse: ребалансировка шардов и профилирование запросов

Как равномерно распределить по шардам ClickHouse уже существующие данные, зачем профилировать запросы, какие профилировщики поддерживает эта колоночная СУБД и каким образом их использовать.

Ребалансировка шардов в ClickHouse

Какой бы быстрой не была база данных, ее работу всегда хочется ускорить еще больше. Одним из популярных способов ускорения распределенной СУБД является шардирование—горизонтальное масштабирование за счет физического разделения данных на разные сегменты(шарды, shards)
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/clickhouse-performance-optimizing-with-shards-rebalancing-and-profilers.html
Курс: https://bigdataschool.ru/courses/clickhouse
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО УЦ Коммерсант

302 viewsedited 11:30

Школа Больших Данных

#Kafka #Decodable #SQL
Пример потокового конвейера из Kafka в Elasticsearch на платформе Decodable

Практическая демонстрация потокового SQL-конвейера, который преобразует данные, потребленные из Apache Kafka, и записывает результаты в Elasticsearch, используя Debezium-коннекторы и задания Apache Flink в облачной платформе Decodable.
Полная статья: https://bigdataschool.ru/blog/news/kafka/from-kafka-to-elasticsearch-with-sql-pipeline-on-decodable.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/apache-kafka-basics https://bigdataschool.ru/courses/apache-kafka-administrator-course https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

243 views07:47

Школа Больших Данных

#ClickHouse #ApacheKafka #СУБД
Задержка интеграции ClickHouse с Apache Kafka и как ее снизить

От чего зависит задержка передачи данных из Apache Kafka в ClickHouse, как ее определить и ускорить интеграцию брокера сообщений с колоночной СУБД: настройки и лучшие практики.

Интеграция ClickHouse с Kafka
Чтобы связать ClickHouse с внешними системами, в этой колоночной СУБД есть специальные механизмы – интеграционные движки таблиц.
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/from-kafka-to-clickhouse-integration-latency.html
Курсы: https://bigdataschool.ru/courses/clickhouse https://bigdataschool.ru/courses/apache-kafka-developers
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

274 viewsedited 11:52

Школа Больших Данных

#ClickHouse #Хештаблица
Индексы в ClickHouse

Как ClickHouse реализует разреженные индексы, что такое гранула, чем отличается широкий формат хранения данных от компактного, и почему значения первичного ключа в диапазоне параметров запроса должны быть монотонной последовательностью.

Тонкости индексации в ClickHouse
Индексация считается одним из наиболее известных способов повышения производительности базы данных. Индекс определяет соответствие значения ключа записи (одного или нескольких атрибутов таблицы) и ее местоположения. Для хранения индексов обычно используются такие структуры данных, как деревья и хэш-таблицы.
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/indexes-in-clickhouse.html
Курс: https://bigdataschool.ru/courses/clickhouse
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

291 viewsedited 08:29

Школа Больших Данных

#Flink #обработка отказов
Внешние ресурсы и пользовательская обработка отказов в Apache Flink

Как расширить возможности Apache Flink с помощью дополнительных плагинов: подключение внешних ресурсов и обогащение отказов пользовательскими метками. Разбираемся с продвинутыми настройками для эффективной эксплуатации фреймворка.

Внешние ресурсы Apache Flink
Помимо процессора и памяти, многим рабочим нагрузкам также требуются другие ресурсы, например, графические процессоры для глубокого обучения. Для поддержки внешних ресурсов Flink предоставляет соответствующую структуру.
Полная статья: https://bigdataschool.ru/blog/news/flink/flink-plugins-enrichment.html
Курс: https://bigdataschool.ru/courses/flink-stream-processing
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

301 views10:24

Школа Больших Данных

#Spark #Databricks #Lakeguard
Изоляция приложений Apache Spark в одной среде Databricks с Lakeguard

Проблемы управления данными в мультиарендной среде или как Databricks решил изолировать клиентские приложения Apache Spark на общей виртуальной машине Java друг от друга и от самого фреймворка (драйвера и исполнителей). Знакомство с Lakeguard на базе каталога Unity.

Проблемы управления данными в мультитенантной среде
Полная статья: https://bigdataschool.ru/blog/news/spark/spark-apps-isolation-with-lakeguard-databricks.html
Курсы: https://bigdataschool.ru/courses/apache-spark-for-data-engineer https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

286 viewsedited 11:21

Школа Больших Данных

#ClickHouse #AirFlow #интеграция
Интеграция ClickHouse с Apache AirFlow

Чем полезна интеграция ClickHouse с Apache Airflow и как ее реализовать: операторы в пакете провайдера и плагине на основе Python-драйвера. Принципы работы и примеры использования.

2 способа интеграции ClickHouse с AirFlow
Продолжая разговор про интеграцию ClickHouse с другими системами, сегодня рассмотрим, как связать эту колоночную СУБД с мощным ETL-движком Apache AirFlow. Полная статья: https://bigdataschool.ru/blog/news/airflow/clickhouse-airflow-integration.html
Курсы: https://bigdataschool.ru/courses/clickhouse
https://bigdataschool.ru/courses/data-flow-with-apache-airflow
https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru/
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

272 views07:36

Школа Больших Данных

#FINAL #ClickHouse #SQL
Модификатор FINAL в ClickHouse: как не выстрелить себе в ногу?

Что такое модификатор FINAL в SELECT-запросе ClickHouse, с какими табличными движками он работает, почему снижает производительность и как этого избежать. Тонкости потокового выполнения SQL-запросов в колоночной СУБД.

Зачем в SELECT-запросе ClickHouse нужен модификатор FINAL?
Хотя SQL-запросы в ClickHouse имеют типовую структуру, их реализация зависит от используемого движка таблиц. Например, запрос на выборку SELECT, который выполняет получение данных, выглядит так (в квадратных скобках показаны опциональные ключевые слова):
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/clickhouse-final-in-select-query.html
Курс: https://bigdataschool.ru/courses/clickhouse
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

273 views13:42

Школа Больших Данных

#ClickHouse #ApacheNiFi #СУБД
Интеграция ClickHouse с Apache NiFi

Как прочитать данные из ClickHouse в Apache NiFi или загрузить их в таблицу колоночной СУБД: настройки подключения, использование процессоров и тонкости потоковой интеграции.
Подключение к ClickHouse из Apache NiFi
Как и интеграция ClickHouse с Apache AirFlow, связь этой колоночной СУБД с приложением NiFi реализуется с помощью решения сообщества, средствами самого NiFi.
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/clickhouse-nifi-integration.html
Курсы: https://bigdataschool.ru/courses/clickhouse https://bigdataschool.ru/courses/nifi3
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

252 views12:25

Школа Больших Данных

#ApacheKafka #ACID
Транзакции в Apache Kafka: атомарность публикации сообщений

Как Apache Kafka реализует требование к атомарности транзакций с помощью координатора и журнала транзакций: принцип Atomic в ACID и его иллюстрация на UML-диаграмме последовательности публикации сообщений в раздел топика.

Транзакционная публикация сообщений в Apache Kafka
Хотя Apache Kafka не является базой данных, эта платформа потоковой передачи событий все же хранит сообщения, опубликованные продюсером в ее топики.
Полная статья: https://bigdataschool.ru/blog/news/kafka/transactional-publication-to-kafka.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-administrator-course https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator
Наш сайт: https://bigdataschool.ru/
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

280 views15:05

Школа Больших Данных

#AirFlow #DAG #логфайл
5 типовых ошибок в Apache AirFlow и как их исправить: советы дата-инженеру

Почему планировщик Apache AirFlow чувствителен к всплескам рабочих нагрузок, из-за чего тормозит база данных метаданных, как исправить проблемы с файлом DAG, лог-файлами и внешними ресурсами: разбираемся с ошибками пакетного оркестратора и способами их решения.

Проблемы с планировщиком
Хотя Apache AirFlow позиционируется как довольно простой фреймворк для оркестрации пакетных процессов с низком порогом входа.
Статья: https://bigdataschool.ru/blog/news/airflow/how-to-solve-typical-problems-with-airflow.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

5 типовых ошибок в Apache AirFlow и как их исправить: советы дата-инженеру

Почему планировщик Apache AirFlow чувствителен к всплескам рабочих нагрузок, из-за чего тормо

248 viewsedited 08:44

Школа Больших Данных

#AirFlow #фреймворки
Контекст в Apache AirFlow
Для чего нужен контекст задачи Apache AirFlow, что он собой представляет, какие включает объекты, как получить к ним доступ и чем они полезны дата-инженеру.

Что такое контекст задачи Apache AirFlow
В разработке ПО контекстом называется среда, в которой существует объект. Это понятие очень важно при использовании специализированных фреймворков.
Полная статья: https://bigdataschool.ru/blog/news/airflow/airflow-context.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

240 views15:02

Школа Больших Данных

#Kafka #транзакции #API
Изоляция транзакций в Apache Kafka при потреблении сообщений

Как Apache Kafka реализует требование к изоляции потребления сообщений, опубликованных транзакционно, и где это настроить в клиентских API, зачем отслеживать LSO, для чего прерывать транзакцию, и какими методами это обеспечивается в библиотеке confluent_kafka.

Транзакционое потребление: изоляция чтения сообщений в Apache Kafka
Полная статья: https://bigdataschool.ru/blog/news/kafka/kafka-transaction-consume-isolation-level.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/apache-kafka-administrator-course https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

257 views12:33

Школа Больших Данных

#API #ApacheSpark #pandas
Планы выполнения запросов при работе с API pandas в Apache Spark

Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта.

API pandas и физический план выполнения запроса в Apache Spark
Мы уже писали, что PySpark, API-интерфейс Python в Apache Spark, позволяет работать с популярной библиотекой pandas.
Статья: https://bigdataschool.ru/blog/news/spark/pandas-on-spark-and-execution-plans.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-structured-streaming https://bigdataschool.ru/courses/apache-spark-machine-learning
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

323 views07:43

Школа Больших Данных

#ApacheNifi #JVM #метрики
Мониторинг NiFi-приложения внешними средствами через задачи отчетности

Что такое задачи отчетности, зачем они нужны и как с их помощью отслеживать события и системные метрики экземпляра NiFi-приложения, а также JVM. Обзор Reporting Tasks в Apache NiFi 2.0.

Задачи отчетности в Apache NiFi
Чтобы отслеживать события и метрики работающего экземпляра приложения Apache NiFi, этот фреймворк предоставляет специализированные инструменты, которые называются задачи отчетности (Reporting Tasks)
Статья: https://bigdataschool.ru/blog/news/nifi/nifi-reporting-tasks.html
Курс: https://bigdataschool.ru/courses/nifi3
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

Мониторинг NiFi-приложения внешними средствами через задачи отчетности

Что такое задачи отчетности, зачем они нужны и как с их помощью отслеживать события и си

249 viewsedited 10:01

Школа Больших Данных

#ApacheKafka #CAP #EDA
Неконсистентность данных в распределенной системе: Apache Kafka и проблема двойной записи

Проклятье CAP-теоремы: проблема целостности данных в распределенной системе и варианты ее решения. 3 шаблона проектирования микросервисной EDA-архитектуры на Apache Kafka: transactional outbox, Event Sourcing и listen to yourself.

Что такое проблема двойной записи в распределенных гетерогенных системах
Статья: https://bigdataschool.ru/blog/news/kafka/how-kafka-solves-data-inconsistency-and-dual-write-problem-in-cap.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

234 views13:54

Школа Больших Данных

#ApacheIceberg #DataLake #Upsolver
Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает

Архитектура Data Lake: что не так с потоковыми обновлениями данных в Data Lake, как Apache Iceberg реализует эти операции и почему Upsolver решили улучшить этот формат

Проблема потоковых обновлений в Data Lake и 2 подхода к ее решению
Считается, что озеро данных (Data Lake) предлагают доступное и гибкое хранилище, позволяющее хранить данные любого типа.
Статья: https://bigdataschool.ru/blog/news/how-upsolver-upgrades-iceberg-for-operations-in-datalake.html
Курсы: https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

252 views13:35

Школа Больших Данных

#ApacheAirFlow #пулы #приоритеты
Пулы и приоритеты задач в Apache AirFlow

Как изменить приоритет задачи в очереди исполнителя Apache AirFlow, на что влияет метод определения весов, каким образом можно балансировать нагрузку с помощью пулов и зачем настраивать количество слотов.

Как приоритизировать задачи в очереди Apache AirFlow
Дата-инженеры, которые используют Apache AirFlow для оркестрации пакетных процессов, знают, что задачи скапливаются в очереди исполнителя.
Статья: https://bigdataschool.ru/blog/news/airflow/pools-and-task-priority-in-airflow.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

254 views06:52

Школа Больших Данных

#ApacheKafka #RisingWave #SQL
Потоковая агрегация событий из Apache Kafka в RisingWave

Практическая демонстрация потоковой агрегации событий пользовательского поведений из Apache Kafka с записью результатов в Redis на платформе RisingWave: примеры Python-кода и конвейера из SQL-инструкций.

Постановка задачи
Одной из ярких тенденций в современном стеке Big Data сегодня стали платформы данных, которые позволяют интегрировать разные системы между собой, поддерживая как пакетную, так и потоковую передачу.
Статья: https://bigdataschool.ru/blog/news/kafka/streaming-aggregation-from-kafka-on-risingwave.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

248 views12:25

About

Blog

Apps

Platform