#Flink #обработка отказов
Внешние ресурсы и пользовательская обработка отказов в Apache Flink
Как расширить возможности Apache Flink с помощью дополнительных плагинов: подключение внешних ресурсов и обогащение отказов пользовательскими метками. Разбираемся с продвинутыми настройками для эффективной эксплуатации фреймворка.
Внешние ресурсы Apache Flink
Помимо процессора и памяти, многим рабочим нагрузкам также требуются другие ресурсы, например, графические процессоры для глубокого обучения. Для поддержки внешних ресурсов Flink предоставляет соответствующую структуру.
Полная статья: https://bigdataschool.ru/blog/news/flink/flink-plugins-enrichment.html
Курс: https://bigdataschool.ru/courses/flink-stream-processing
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Внешние ресурсы и пользовательская обработка отказов в Apache Flink
Как расширить возможности Apache Flink с помощью дополнительных плагинов: подключение внешних ресурсов и обогащение отказов пользовательскими метками. Разбираемся с продвинутыми настройками для эффективной эксплуатации фреймворка.
Внешние ресурсы Apache Flink
Помимо процессора и памяти, многим рабочим нагрузкам также требуются другие ресурсы, например, графические процессоры для глубокого обучения. Для поддержки внешних ресурсов Flink предоставляет соответствующую структуру.
Полная статья: https://bigdataschool.ru/blog/news/flink/flink-plugins-enrichment.html
Курс: https://bigdataschool.ru/courses/flink-stream-processing
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Spark #Databricks #Lakeguard
Изоляция приложений Apache Spark в одной среде Databricks с Lakeguard
Проблемы управления данными в мультиарендной среде или как Databricks решил изолировать клиентские приложения Apache Spark на общей виртуальной машине Java друг от друга и от самого фреймворка (драйвера и исполнителей). Знакомство с Lakeguard на базе каталога Unity.
Проблемы управления данными в мультитенантной среде
Полная статья: https://bigdataschool.ru/blog/news/spark/spark-apps-isolation-with-lakeguard-databricks.html
Курсы: https://bigdataschool.ru/courses/apache-spark-for-data-engineer https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Изоляция приложений Apache Spark в одной среде Databricks с Lakeguard
Проблемы управления данными в мультиарендной среде или как Databricks решил изолировать клиентские приложения Apache Spark на общей виртуальной машине Java друг от друга и от самого фреймворка (драйвера и исполнителей). Знакомство с Lakeguard на базе каталога Unity.
Проблемы управления данными в мультитенантной среде
Полная статья: https://bigdataschool.ru/blog/news/spark/spark-apps-isolation-with-lakeguard-databricks.html
Курсы: https://bigdataschool.ru/courses/apache-spark-for-data-engineer https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ClickHouse #AirFlow #интеграция
Интеграция ClickHouse с Apache AirFlow
Чем полезна интеграция ClickHouse с Apache Airflow и как ее реализовать: операторы в пакете провайдера и плагине на основе Python-драйвера. Принципы работы и примеры использования.
2 способа интеграции ClickHouse с AirFlow
Продолжая разговор про интеграцию ClickHouse с другими системами, сегодня рассмотрим, как связать эту колоночную СУБД с мощным ETL-движком Apache AirFlow. Полная статья: https://bigdataschool.ru/blog/news/airflow/clickhouse-airflow-integration.html
Курсы: https://bigdataschool.ru/courses/clickhouse
https://bigdataschool.ru/courses/data-flow-with-apache-airflow
https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru/
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Интеграция ClickHouse с Apache AirFlow
Чем полезна интеграция ClickHouse с Apache Airflow и как ее реализовать: операторы в пакете провайдера и плагине на основе Python-драйвера. Принципы работы и примеры использования.
2 способа интеграции ClickHouse с AirFlow
Продолжая разговор про интеграцию ClickHouse с другими системами, сегодня рассмотрим, как связать эту колоночную СУБД с мощным ETL-движком Apache AirFlow. Полная статья: https://bigdataschool.ru/blog/news/airflow/clickhouse-airflow-integration.html
Курсы: https://bigdataschool.ru/courses/clickhouse
https://bigdataschool.ru/courses/data-flow-with-apache-airflow
https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru/
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#FINAL #ClickHouse #SQL
Модификатор FINAL в ClickHouse: как не выстрелить себе в ногу?
Что такое модификатор FINAL в SELECT-запросе ClickHouse, с какими табличными движками он работает, почему снижает производительность и как этого избежать. Тонкости потокового выполнения SQL-запросов в колоночной СУБД.
Зачем в SELECT-запросе ClickHouse нужен модификатор FINAL?
Хотя SQL-запросы в ClickHouse имеют типовую структуру, их реализация зависит от используемого движка таблиц. Например, запрос на выборку SELECT, который выполняет получение данных, выглядит так (в квадратных скобках показаны опциональные ключевые слова):
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/clickhouse-final-in-select-query.html
Курс: https://bigdataschool.ru/courses/clickhouse
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Модификатор FINAL в ClickHouse: как не выстрелить себе в ногу?
Что такое модификатор FINAL в SELECT-запросе ClickHouse, с какими табличными движками он работает, почему снижает производительность и как этого избежать. Тонкости потокового выполнения SQL-запросов в колоночной СУБД.
Зачем в SELECT-запросе ClickHouse нужен модификатор FINAL?
Хотя SQL-запросы в ClickHouse имеют типовую структуру, их реализация зависит от используемого движка таблиц. Например, запрос на выборку SELECT, который выполняет получение данных, выглядит так (в квадратных скобках показаны опциональные ключевые слова):
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/clickhouse-final-in-select-query.html
Курс: https://bigdataschool.ru/courses/clickhouse
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ClickHouse #ApacheNiFi #СУБД
Интеграция ClickHouse с Apache NiFi
Как прочитать данные из ClickHouse в Apache NiFi или загрузить их в таблицу колоночной СУБД: настройки подключения, использование процессоров и тонкости потоковой интеграции.
Подключение к ClickHouse из Apache NiFi
Как и интеграция ClickHouse с Apache AirFlow, связь этой колоночной СУБД с приложением NiFi реализуется с помощью решения сообщества, средствами самого NiFi.
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/clickhouse-nifi-integration.html
Курсы: https://bigdataschool.ru/courses/clickhouse https://bigdataschool.ru/courses/nifi3
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Интеграция ClickHouse с Apache NiFi
Как прочитать данные из ClickHouse в Apache NiFi или загрузить их в таблицу колоночной СУБД: настройки подключения, использование процессоров и тонкости потоковой интеграции.
Подключение к ClickHouse из Apache NiFi
Как и интеграция ClickHouse с Apache AirFlow, связь этой колоночной СУБД с приложением NiFi реализуется с помощью решения сообщества, средствами самого NiFi.
Полная статья: https://bigdataschool.ru/blog/news/clickhouse/clickhouse-nifi-integration.html
Курсы: https://bigdataschool.ru/courses/clickhouse https://bigdataschool.ru/courses/nifi3
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ApacheKafka #ACID
Транзакции в Apache Kafka: атомарность публикации сообщений
Как Apache Kafka реализует требование к атомарности транзакций с помощью координатора и журнала транзакций: принцип Atomic в ACID и его иллюстрация на UML-диаграмме последовательности публикации сообщений в раздел топика.
Транзакционная публикация сообщений в Apache Kafka
Хотя Apache Kafka не является базой данных, эта платформа потоковой передачи событий все же хранит сообщения, опубликованные продюсером в ее топики.
Полная статья: https://bigdataschool.ru/blog/news/kafka/transactional-publication-to-kafka.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-administrator-course https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator
Наш сайт: https://bigdataschool.ru/
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Транзакции в Apache Kafka: атомарность публикации сообщений
Как Apache Kafka реализует требование к атомарности транзакций с помощью координатора и журнала транзакций: принцип Atomic в ACID и его иллюстрация на UML-диаграмме последовательности публикации сообщений в раздел топика.
Транзакционная публикация сообщений в Apache Kafka
Хотя Apache Kafka не является базой данных, эта платформа потоковой передачи событий все же хранит сообщения, опубликованные продюсером в ее топики.
Полная статья: https://bigdataschool.ru/blog/news/kafka/transactional-publication-to-kafka.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-administrator-course https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator
Наш сайт: https://bigdataschool.ru/
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#AirFlow #DAG #логфайл
5 типовых ошибок в Apache AirFlow и как их исправить: советы дата-инженеру
Почему планировщик Apache AirFlow чувствителен к всплескам рабочих нагрузок, из-за чего тормозит база данных метаданных, как исправить проблемы с файлом DAG, лог-файлами и внешними ресурсами: разбираемся с ошибками пакетного оркестратора и способами их решения.
Проблемы с планировщиком
Хотя Apache AirFlow позиционируется как довольно простой фреймворк для оркестрации пакетных процессов с низком порогом входа.
Статья: https://bigdataschool.ru/blog/news/airflow/how-to-solve-typical-problems-with-airflow.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
5 типовых ошибок в Apache AirFlow и как их исправить: советы дата-инженеру
Почему планировщик Apache AirFlow чувствителен к всплескам рабочих нагрузок, из-за чего тормозит база данных метаданных, как исправить проблемы с файлом DAG, лог-файлами и внешними ресурсами: разбираемся с ошибками пакетного оркестратора и способами их решения.
Проблемы с планировщиком
Хотя Apache AirFlow позиционируется как довольно простой фреймворк для оркестрации пакетных процессов с низком порогом входа.
Статья: https://bigdataschool.ru/blog/news/airflow/how-to-solve-typical-problems-with-airflow.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
5 типовых ошибок в Apache AirFlow и как их исправить: советы дата-инженеру
Почему планировщик Apache AirFlow чувствителен к всплескам рабочих нагрузок, из-за чего тормо
#AirFlow #фреймворки
Контекст в Apache AirFlow
Для чего нужен контекст задачи Apache AirFlow, что он собой представляет, какие включает объекты, как получить к ним доступ и чем они полезны дата-инженеру.
Что такое контекст задачи Apache AirFlow
В разработке ПО контекстом называется среда, в которой существует объект. Это понятие очень важно при использовании специализированных фреймворков.
Полная статья: https://bigdataschool.ru/blog/news/airflow/airflow-context.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Контекст в Apache AirFlow
Для чего нужен контекст задачи Apache AirFlow, что он собой представляет, какие включает объекты, как получить к ним доступ и чем они полезны дата-инженеру.
Что такое контекст задачи Apache AirFlow
В разработке ПО контекстом называется среда, в которой существует объект. Это понятие очень важно при использовании специализированных фреймворков.
Полная статья: https://bigdataschool.ru/blog/news/airflow/airflow-context.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Kafka #транзакции #API
Изоляция транзакций в Apache Kafka при потреблении сообщений
Как Apache Kafka реализует требование к изоляции потребления сообщений, опубликованных транзакционно, и где это настроить в клиентских API, зачем отслеживать LSO, для чего прерывать транзакцию, и какими методами это обеспечивается в библиотеке confluent_kafka.
Транзакционое потребление: изоляция чтения сообщений в Apache Kafka
Полная статья: https://bigdataschool.ru/blog/news/kafka/kafka-transaction-consume-isolation-level.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/apache-kafka-administrator-course https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Изоляция транзакций в Apache Kafka при потреблении сообщений
Как Apache Kafka реализует требование к изоляции потребления сообщений, опубликованных транзакционно, и где это настроить в клиентских API, зачем отслеживать LSO, для чего прерывать транзакцию, и какими методами это обеспечивается в библиотеке confluent_kafka.
Транзакционое потребление: изоляция чтения сообщений в Apache Kafka
Полная статья: https://bigdataschool.ru/blog/news/kafka/kafka-transaction-consume-isolation-level.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/apache-kafka-administrator-course https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#API #ApacheSpark #pandas
Планы выполнения запросов при работе с API pandas в Apache Spark
Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта.
API pandas и физический план выполнения запроса в Apache Spark
Мы уже писали, что PySpark, API-интерфейс Python в Apache Spark, позволяет работать с популярной библиотекой pandas.
Статья: https://bigdataschool.ru/blog/news/spark/pandas-on-spark-and-execution-plans.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-structured-streaming https://bigdataschool.ru/courses/apache-spark-machine-learning
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Планы выполнения запросов при работе с API pandas в Apache Spark
Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта.
API pandas и физический план выполнения запроса в Apache Spark
Мы уже писали, что PySpark, API-интерфейс Python в Apache Spark, позволяет работать с популярной библиотекой pandas.
Статья: https://bigdataschool.ru/blog/news/spark/pandas-on-spark-and-execution-plans.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-structured-streaming https://bigdataschool.ru/courses/apache-spark-machine-learning
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ApacheNifi #JVM #метрики
Мониторинг NiFi-приложения внешними средствами через задачи отчетности
Что такое задачи отчетности, зачем они нужны и как с их помощью отслеживать события и системные метрики экземпляра NiFi-приложения, а также JVM. Обзор Reporting Tasks в Apache NiFi 2.0.
Задачи отчетности в Apache NiFi
Чтобы отслеживать события и метрики работающего экземпляра приложения Apache NiFi, этот фреймворк предоставляет специализированные инструменты, которые называются задачи отчетности (Reporting Tasks)
Статья: https://bigdataschool.ru/blog/news/nifi/nifi-reporting-tasks.html
Курс: https://bigdataschool.ru/courses/nifi3
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Мониторинг NiFi-приложения внешними средствами через задачи отчетности
Что такое задачи отчетности, зачем они нужны и как с их помощью отслеживать события и системные метрики экземпляра NiFi-приложения, а также JVM. Обзор Reporting Tasks в Apache NiFi 2.0.
Задачи отчетности в Apache NiFi
Чтобы отслеживать события и метрики работающего экземпляра приложения Apache NiFi, этот фреймворк предоставляет специализированные инструменты, которые называются задачи отчетности (Reporting Tasks)
Статья: https://bigdataschool.ru/blog/news/nifi/nifi-reporting-tasks.html
Курс: https://bigdataschool.ru/courses/nifi3
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
Мониторинг NiFi-приложения внешними средствами через задачи отчетности
Что такое задачи отчетности, зачем они нужны и как с их помощью отслеживать события и си
#ApacheKafka #CAP #EDA
Неконсистентность данных в распределенной системе: Apache Kafka и проблема двойной записи
Проклятье CAP-теоремы: проблема целостности данных в распределенной системе и варианты ее решения. 3 шаблона проектирования микросервисной EDA-архитектуры на Apache Kafka: transactional outbox, Event Sourcing и listen to yourself.
Что такое проблема двойной записи в распределенных гетерогенных системах
Статья: https://bigdataschool.ru/blog/news/kafka/how-kafka-solves-data-inconsistency-and-dual-write-problem-in-cap.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Неконсистентность данных в распределенной системе: Apache Kafka и проблема двойной записи
Проклятье CAP-теоремы: проблема целостности данных в распределенной системе и варианты ее решения. 3 шаблона проектирования микросервисной EDA-архитектуры на Apache Kafka: transactional outbox, Event Sourcing и listen to yourself.
Что такое проблема двойной записи в распределенных гетерогенных системах
Статья: https://bigdataschool.ru/blog/news/kafka/how-kafka-solves-data-inconsistency-and-dual-write-problem-in-cap.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ApacheIceberg #DataLake #Upsolver
Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает
Архитектура Data Lake: что не так с потоковыми обновлениями данных в Data Lake, как Apache Iceberg реализует эти операции и почему Upsolver решили улучшить этот формат
Проблема потоковых обновлений в Data Lake и 2 подхода к ее решению
Считается, что озеро данных (Data Lake) предлагают доступное и гибкое хранилище, позволяющее хранить данные любого типа.
Статья: https://bigdataschool.ru/blog/news/how-upsolver-upgrades-iceberg-for-operations-in-datalake.html
Курсы: https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает
Архитектура Data Lake: что не так с потоковыми обновлениями данных в Data Lake, как Apache Iceberg реализует эти операции и почему Upsolver решили улучшить этот формат
Проблема потоковых обновлений в Data Lake и 2 подхода к ее решению
Считается, что озеро данных (Data Lake) предлагают доступное и гибкое хранилище, позволяющее хранить данные любого типа.
Статья: https://bigdataschool.ru/blog/news/how-upsolver-upgrades-iceberg-for-operations-in-datalake.html
Курсы: https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ApacheAirFlow #пулы #приоритеты
Пулы и приоритеты задач в Apache AirFlow
Как изменить приоритет задачи в очереди исполнителя Apache AirFlow, на что влияет метод определения весов, каким образом можно балансировать нагрузку с помощью пулов и зачем настраивать количество слотов.
Как приоритизировать задачи в очереди Apache AirFlow
Дата-инженеры, которые используют Apache AirFlow для оркестрации пакетных процессов, знают, что задачи скапливаются в очереди исполнителя.
Статья: https://bigdataschool.ru/blog/news/airflow/pools-and-task-priority-in-airflow.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Пулы и приоритеты задач в Apache AirFlow
Как изменить приоритет задачи в очереди исполнителя Apache AirFlow, на что влияет метод определения весов, каким образом можно балансировать нагрузку с помощью пулов и зачем настраивать количество слотов.
Как приоритизировать задачи в очереди Apache AirFlow
Дата-инженеры, которые используют Apache AirFlow для оркестрации пакетных процессов, знают, что задачи скапливаются в очереди исполнителя.
Статья: https://bigdataschool.ru/blog/news/airflow/pools-and-task-priority-in-airflow.html
Курсы: https://bigdataschool.ru/courses/data-flow-with-apache-airflow https://bigdataschool.ru/courses/airflow-on-yandex-managed-service
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ApacheKafka #RisingWave #SQL
Потоковая агрегация событий из Apache Kafka в RisingWave
Практическая демонстрация потоковой агрегации событий пользовательского поведений из Apache Kafka с записью результатов в Redis на платформе RisingWave: примеры Python-кода и конвейера из SQL-инструкций.
Постановка задачи
Одной из ярких тенденций в современном стеке Big Data сегодня стали платформы данных, которые позволяют интегрировать разные системы между собой, поддерживая как пакетную, так и потоковую передачу.
Статья: https://bigdataschool.ru/blog/news/kafka/streaming-aggregation-from-kafka-on-risingwave.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Потоковая агрегация событий из Apache Kafka в RisingWave
Практическая демонстрация потоковой агрегации событий пользовательского поведений из Apache Kafka с записью результатов в Redis на платформе RisingWave: примеры Python-кода и конвейера из SQL-инструкций.
Постановка задачи
Одной из ярких тенденций в современном стеке Big Data сегодня стали платформы данных, которые позволяют интегрировать разные системы между собой, поддерживая как пакетную, так и потоковую передачу.
Статья: https://bigdataschool.ru/blog/news/kafka/streaming-aggregation-from-kafka-on-risingwave.html
Курсы: https://bigdataschool.ru/courses/apache-kafka-developers https://bigdataschool.ru/courses/data-architecture https://bigdataschool.ru/courses/practice-data-architecture
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#GPSS #СУБД #YAML
Выгрузка данных из Greenplum с GPSS
Почему потоковый сервер Greenplum выгружает данные во внешние системы пакетно: тонкости утилиты gpfdist и YAML-файла конфигурации выгрузки. Возможности и ограничения GPSS-сервера при выгрузке данных во внешние системы из MPP-СУБД.
Потоковый сервер Greenplum
Ключевым отличием Greenplum от PostgreSQL является поддержка механизма массово-параллельной обработки, благодаря чему эта MPP-СУБД относится к стеку Big Data.
Статья: https://bigdataschool.ru/blog/news/greenplum/unloading-data-from-greenplum-with-gpss.html
Курсы: https://bigdataschool.ru/courses/greenplum-for-data-engineers https://bigdataschool.ru/courses/greenplum-arenadata-administration
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Выгрузка данных из Greenplum с GPSS
Почему потоковый сервер Greenplum выгружает данные во внешние системы пакетно: тонкости утилиты gpfdist и YAML-файла конфигурации выгрузки. Возможности и ограничения GPSS-сервера при выгрузке данных во внешние системы из MPP-СУБД.
Потоковый сервер Greenplum
Ключевым отличием Greenplum от PostgreSQL является поддержка механизма массово-параллельной обработки, благодаря чему эта MPP-СУБД относится к стеку Big Data.
Статья: https://bigdataschool.ru/blog/news/greenplum/unloading-data-from-greenplum-with-gpss.html
Курсы: https://bigdataschool.ru/courses/greenplum-for-data-engineers https://bigdataschool.ru/courses/greenplum-arenadata-administration
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#VARIANT #ApacheSpark #релиз
Чего ждать от Apache Spark 4.0: обзор свежего предрелиза
3 июня 2024 года вышел предварительный релиз Apache Spark 4.0. Эта версия еще не считается стабильной и предназначена только для ознакомления. Поэтому даже полноценные release notes по ней пока отсутствуют. Тем не менее, сегодня познакомимся с наиболее интересными фичами этого выпуска: новый тип данных VARIANT, API источника данных Python и логи в формате JSON.
Статья: https://bigdataschool.ru/blog/news/spark/spark-4-0-predrelease-overview.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-sql https://bigdataschool.ru/courses/apache-spark-for-data-engineer
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Чего ждать от Apache Spark 4.0: обзор свежего предрелиза
3 июня 2024 года вышел предварительный релиз Apache Spark 4.0. Эта версия еще не считается стабильной и предназначена только для ознакомления. Поэтому даже полноценные release notes по ней пока отсутствуют. Тем не менее, сегодня познакомимся с наиболее интересными фичами этого выпуска: новый тип данных VARIANT, API источника данных Python и логи в формате JSON.
Статья: https://bigdataschool.ru/blog/news/spark/spark-4-0-predrelease-overview.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-sql https://bigdataschool.ru/courses/apache-spark-for-data-engineer
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#SparkConnect #API #архитектура
Архитектура и принципы работы Spark Connect
Что общего у клиент-серверной архитектуры Spark Connect с JDBC-драйвером подключения к БД, как взаимодействуют клиент и сервер по gRPC, как подключиться к серверу и указать обязательность поля в схеме proto-сообщения.
Как работает Spark Connect
О том, что представляет собой Spark Connect и зачем нужен этот клиентский API, позволяющий удаленно подключаться к кластерам Spark с использованием API DataFrame и неразрешенных логических планов в качестве протокола.
Статья: https://bigdataschool.ru/blog/news/spark/how-spark-connect-works.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-structured-streaming https://bigdataschool.ru/courses/apache-spark-sql
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Архитектура и принципы работы Spark Connect
Что общего у клиент-серверной архитектуры Spark Connect с JDBC-драйвером подключения к БД, как взаимодействуют клиент и сервер по gRPC, как подключиться к серверу и указать обязательность поля в схеме proto-сообщения.
Как работает Spark Connect
О том, что представляет собой Spark Connect и зачем нужен этот клиентский API, позволяющий удаленно подключаться к кластерам Spark с использованием API DataFrame и неразрешенных логических планов в качестве протокола.
Статья: https://bigdataschool.ru/blog/news/spark/how-spark-connect-works.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-structured-streaming https://bigdataschool.ru/courses/apache-spark-sql
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ApacheKafka #файловаясистема
Apache Kafka и файловая система
Как Apache Kafka использует страничный кэш операционной системы, какие конфигураций файловой системы надо настраивать для повышения пропускной способности и снижения задержки и каковы недостатки RAID-массивов для надежного хранения опубликованных сообщений.
Страничный кэш ОС и быстродействие Kafka
Статья: https://bigdataschool.ru/blog/news/kafka/kafka-and-file-system.html
Курсы: https://bigdataschool.ru/bigdata/apache-kafka-administrator-course.html https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator https://bigdataschool.ru/courses/apache-kafka-developers
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Apache Kafka и файловая система
Как Apache Kafka использует страничный кэш операционной системы, какие конфигураций файловой системы надо настраивать для повышения пропускной способности и снижения задержки и каковы недостатки RAID-массивов для надежного хранения опубликованных сообщений.
Страничный кэш ОС и быстродействие Kafka
Статья: https://bigdataschool.ru/blog/news/kafka/kafka-and-file-system.html
Курсы: https://bigdataschool.ru/bigdata/apache-kafka-administrator-course.html https://bigdataschool.ru/courses/arenadata-streaming-kafka-cluster-administrator https://bigdataschool.ru/courses/apache-kafka-developers
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#OpenID #Flask #ApacheAirFlow
OpenID, Flask-AppBuilder и CVE-2024-25128 в Apache AirFlow
Чем уязвимость устаревшего метода аутентификации OpenID в Flask-AppBuilder опасна для Apache AirFlow и как это исправить? Обзор уязвимости CVE-2024-25128.
Уязвимости OpenID для FAB в Apache AirFlow
В конце февраля 2024 выяснилось, что в прошлом релизе Apache AirFlow 2.8, вышедшем 14 декабря прошлого года, обнаружилась критическая уязвимость, набравшая более 9 баллов по 10-бальной шкале CVSS (Common Vulnerability Scoring System). Впрочем, эта неприятность вряд ли затронет слишком много пользователей, поскольку она связана с устаревшим методом аутентификации OpenID в Flask AppBuilder (FAB).
Статья
Курсы: AIRF, YARF
Наш сайт
Копирование, размноженираспространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
OpenID, Flask-AppBuilder и CVE-2024-25128 в Apache AirFlow
Чем уязвимость устаревшего метода аутентификации OpenID в Flask-AppBuilder опасна для Apache AirFlow и как это исправить? Обзор уязвимости CVE-2024-25128.
Уязвимости OpenID для FAB в Apache AirFlow
В конце февраля 2024 выяснилось, что в прошлом релизе Apache AirFlow 2.8, вышедшем 14 декабря прошлого года, обнаружилась критическая уязвимость, набравшая более 9 баллов по 10-бальной шкале CVSS (Common Vulnerability Scoring System). Впрочем, эта неприятность вряд ли затронет слишком много пользователей, поскольку она связана с устаревшим методом аутентификации OpenID в Flask AppBuilder (FAB).
Статья
Курсы: AIRF, YARF
Наш сайт
Копирование, размноженираспространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"