#Масштабирование #Trino #кластер
Масштабирование Trino
Как ускорить работу Trino при росте нагрузки и сэкономить на кластере при ее сокращении: автомасштабирование рабочих узлов и операций записи, а также настройка групп ресурсов.
Масштабирование кластера
Классическим способом справиться с растущими вычислительными нагрузками в гомогенной распределенной системе является горизонтальное масштабирование кластера. Это сводится к добавлению новых узлов, которые отвечают за выполнение операций или хранение данных, а также балансировщиков, равномерно распределяющих нагрузку между узлами.
Статья
Курсы: TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Масштабирование Trino
Как ускорить работу Trino при росте нагрузки и сэкономить на кластере при ее сокращении: автомасштабирование рабочих узлов и операций записи, а также настройка групп ресурсов.
Масштабирование кластера
Классическим способом справиться с растущими вычислительными нагрузками в гомогенной распределенной системе является горизонтальное масштабирование кластера. Это сводится к добавлению новых узлов, которые отвечают за выполнение операций или хранение данных, а также балансировщиков, равномерно распределяющих нагрузку между узлами.
Статья
Курсы: TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Проблемы #бесконечного #масштабирования #Trino #Gateway
Проблемы бесконечного масштабирования кластера и их решение с Trino Gateway
Что такое Trino Gateway, зачем он нужен и как работает: для чего делить один большой кластер Trino на несколько маленьких и как к ним обращаться без изменений на стороне клиентов.
Проблемы бесконечного масштабирования кластера
Благодаря горизонтальному масштабированию, о котором мы говорили вчера, кластер Trino можно расширять, добавляя новые рабочие узлы. Хотя в документации движка не сказано об ограничениях максимального количества узлов в кластере, на практике чрезмерно большие кластера делят на несколько более мелких. Оптимальное количество узлов в кластере – это всегда компромисс между производительностью, управляемостью и затратами на инфраструктуру.
Статья
Курсы: TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Проблемы бесконечного масштабирования кластера и их решение с Trino Gateway
Что такое Trino Gateway, зачем он нужен и как работает: для чего делить один большой кластер Trino на несколько маленьких и как к ним обращаться без изменений на стороне клиентов.
Проблемы бесконечного масштабирования кластера
Благодаря горизонтальному масштабированию, о котором мы говорили вчера, кластер Trino можно расширять, добавляя новые рабочие узлы. Хотя в документации движка не сказано об ограничениях максимального количества узлов в кластере, на практике чрезмерно большие кластера делят на несколько более мелких. Оптимальное количество узлов в кластере – это всегда компромисс между производительностью, управляемостью и затратами на инфраструктуру.
Статья
Курсы: TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#AirFlow #релиз
Что нас ждет в Apache AirFlow 3.0: обзор грядущего релиза
Изоляция рабочих процессов и универсальное выполнение на удаленных машинах в обновленной клиент-серверной архитектуре, версионирование DAG, активы данных и изменения интерфейсов: главные новинки Apache AirFlow 3.0.
Изоляция рабочих процессов и универсальное выполнение
В марте 2025 года ожидается выпуск бета-релиза Apache AirFlow, а общедоступная версия (GA) выйдет в середине апреля. До этого крупный выпуск выходил 5 лет назад: версия 2.0 в 2020 году. В выпуске 3.0 нас ждет много нового: внешнее выполнение задач, явное управление версиями DAG, планирование на основе событий и разделение API и GUI.
Статья
Курсы: AIRF
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Что нас ждет в Apache AirFlow 3.0: обзор грядущего релиза
Изоляция рабочих процессов и универсальное выполнение на удаленных машинах в обновленной клиент-серверной архитектуре, версионирование DAG, активы данных и изменения интерфейсов: главные новинки Apache AirFlow 3.0.
Изоляция рабочих процессов и универсальное выполнение
В марте 2025 года ожидается выпуск бета-релиза Apache AirFlow, а общедоступная версия (GA) выйдет в середине апреля. До этого крупный выпуск выходил 5 лет назад: версия 2.0 в 2020 году. В выпуске 3.0 нас ждет много нового: внешнее выполнение задач, явное управление версиями DAG, планирование на основе событий и разделение API и GUI.
Статья
Курсы: AIRF
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ClickHouse #использование #PostgreSQL #CDC #PeerDB
Совместное использование ClickHouse и PostgreSQL: CDC с PeerDB
Как передать изменения данных из транзакционной базы в аналитическую без дублей и задержек: CDC-ETL из PostgreSQL в ClickHouse с PeerDB.
CDC для ClickHouse с PeerDB и ClickPipes
Возможности Clickhouse позволяют построить на нем корпоративное хранилище данных целиком или реализовать отдельный слой, например, для денормализованных витрин. Также совместное использование транзакционных и аналитических баз данных обеспечивает получение информации в реальном времени и масштабируемую аналитику. Такая архитектура данных позволяет реализовать паттерн CQRS, разделив рабочие нагрузки на чтение и запись данных, попутно увеличив доступность и масштабируемость приложений.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Совместное использование ClickHouse и PostgreSQL: CDC с PeerDB
Как передать изменения данных из транзакционной базы в аналитическую без дублей и задержек: CDC-ETL из PostgreSQL в ClickHouse с PeerDB.
CDC для ClickHouse с PeerDB и ClickPipes
Возможности Clickhouse позволяют построить на нем корпоративное хранилище данных целиком или реализовать отдельный слой, например, для денормализованных витрин. Также совместное использование транзакционных и аналитических баз данных обеспечивает получение информации в реальном времени и масштабируемую аналитику. Такая архитектура данных позволяет реализовать паттерн CQRS, разделив рабочие нагрузки на чтение и запись данных, попутно увеличив доступность и масштабируемость приложений.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Дубли #CDC #передача #PostgreSQL #ClickHouse
Дубли при CDC-передаче данных из PostgreSQL в ClickHouse и как их устранить
Почему табличный движок ReplacingMergeTree в PeerDB и ClickPipes не избавит от дублей при передаче измененных данных из PostgreSQL в ClickHouse и можно ли полностью выполнить дедупликацию с помощью модификатора FINAL, политики строк, обновляемых представлений или агрегатных и оконных функций.
Как движок ReplacingMergeTree допускает дубли при импорте изменений из PostgreSQL в ClickHouse
Недавно мы разбирали реализацию CDC-подхода к передаче данных из транзакционной базы PostgreSQL в аналитическое хранилище Clickhouse с помощью PeerDB и основанном на этом ETL/ELT-инструменте репликации ClickPipes — интеграционного движка для облачной версии.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Дубли при CDC-передаче данных из PostgreSQL в ClickHouse и как их устранить
Почему табличный движок ReplacingMergeTree в PeerDB и ClickPipes не избавит от дублей при передаче измененных данных из PostgreSQL в ClickHouse и можно ли полностью выполнить дедупликацию с помощью модификатора FINAL, политики строк, обновляемых представлений или агрегатных и оконных функций.
Как движок ReplacingMergeTree допускает дубли при импорте изменений из PostgreSQL в ClickHouse
Недавно мы разбирали реализацию CDC-подхода к передаче данных из транзакционной базы PostgreSQL в аналитическое хранилище Clickhouse с помощью PeerDB и основанном на этом ETL/ELT-инструменте репликации ClickPipes — интеграционного движка для облачной версии.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Мультиязычные #конвейеры #Apache #Beam #обработка #данных
Мультиязычные конвейеры обработки данных в Apache Beam
Можно ли при разработке конвейера Apache Beam использовать преобразования из SDK разных языков программирования и как это сделать, избежав типичных ошибок.
Кросс-языковые преобразования и мультиязычные конвейеры Beam
Как и многие популярные фреймворки для создания распределенных приложений обработки данных (Apache Flink, Spark и другие движки), Apache Beam поддерживает несколько языков. В частности, эта собой унифицированная модель определения пакетных и потоковых конвейеров параллельной обработки данных имеет не только Java, Python и Go SDK, а также и декларативный YAML API, пример работы с которым я показывала здесь.
Статья
Курсы: MK-K8S
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Мультиязычные конвейеры обработки данных в Apache Beam
Можно ли при разработке конвейера Apache Beam использовать преобразования из SDK разных языков программирования и как это сделать, избежав типичных ошибок.
Кросс-языковые преобразования и мультиязычные конвейеры Beam
Как и многие популярные фреймворки для создания распределенных приложений обработки данных (Apache Flink, Spark и другие движки), Apache Beam поддерживает несколько языков. В частности, эта собой унифицированная модель определения пакетных и потоковых конвейеров параллельной обработки данных имеет не только Java, Python и Go SDK, а также и декларативный YAML API, пример работы с которым я показывала здесь.
Статья
Курсы: MK-K8S
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#конференция #дата_инженерия
🌞Коллеги, команда Онтико запускает новую конференцию по инженерии данных - Data Internals X.
🗓Офлайн, 23 сентября 2025 в Москве, Старт Хаб на Красном Октябре (ex. Digital October)
🪢В программе тонкости хранения и обработки данных, архитектуры хранилищ и платформ, истории успехов и провалов, а также практические кейсы по этим направлениям:
👉🏻Разработка СУБД и инструментов работы с данными
👉🏻Практические примеры внедрений
👉🏻Архитектура данных
👉🏻Управление данными
👉🏻Машинное обучение и искусственный интеллект в разработке инструментов управления данными
🔥До 12 мая идет прием докладов! Анна Вичугова из нашей Школы Больших Данных в программном комитете этой новой конференции активно приглашает вас к участию в качестве спикеров. Расскажите о своем опыте разработки, проектирования и внедрения новых СУБД, ETL-инструментов и платформенных решений, пообщайтесь с коллегами и познакомьтесь с интересными идеями!
💥Успевайте подать заявку до 12 мая 👇
https://cfp.datainternals.ru/
🙌🏼До встречи на конференции!🙌🏼
🌞Коллеги, команда Онтико запускает новую конференцию по инженерии данных - Data Internals X.
🗓Офлайн, 23 сентября 2025 в Москве, Старт Хаб на Красном Октябре (ex. Digital October)
🪢В программе тонкости хранения и обработки данных, архитектуры хранилищ и платформ, истории успехов и провалов, а также практические кейсы по этим направлениям:
👉🏻Разработка СУБД и инструментов работы с данными
👉🏻Практические примеры внедрений
👉🏻Архитектура данных
👉🏻Управление данными
👉🏻Машинное обучение и искусственный интеллект в разработке инструментов управления данными
🔥До 12 мая идет прием докладов! Анна Вичугова из нашей Школы Больших Данных в программном комитете этой новой конференции активно приглашает вас к участию в качестве спикеров. Расскажите о своем опыте разработки, проектирования и внедрения новых СУБД, ETL-инструментов и платформенных решений, пообщайтесь с коллегами и познакомьтесь с интересными идеями!
💥Успевайте подать заявку до 12 мая 👇
https://cfp.datainternals.ru/
🙌🏼До встречи на конференции!🙌🏼
cfp.datainternals.ru
Data Internals X 2025
Профессиональная конференция про базы данных
#ключи #сортировки #CDC #PostgreSQL #ClickHouse #качество #данные #что #делать
Как ключи сортировки при CDC-передаче данных из PostgreSQL в ClickHouse могут снизить качество данных и что с этим делать
Почему ключи сортировки в ClickHouse могут стать причиной появления дублей или пропусков при CDC-передаче изменений из PostgreSQL и как этого избежать: особенности логической репликации из транзакционной базы данных в аналитическую.
Влияние ключей сортировки на CDC-передачу изменений из PostgreSQL в ClickHouse
Продолжая разбираться с дублированием данных при передачи изменений из PostgreSQL в Clickhouse, сегодня поговорим о том, как на качество загруженных данных влияет ключ сортировки.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Как ключи сортировки при CDC-передаче данных из PostgreSQL в ClickHouse могут снизить качество данных и что с этим делать
Почему ключи сортировки в ClickHouse могут стать причиной появления дублей или пропусков при CDC-передаче изменений из PostgreSQL и как этого избежать: особенности логической репликации из транзакционной базы данных в аналитическую.
Влияние ключей сортировки на CDC-передачу изменений из PostgreSQL в ClickHouse
Продолжая разбираться с дублированием данных при передачи изменений из PostgreSQL в Clickhouse, сегодня поговорим о том, как на качество загруженных данных влияет ключ сортировки.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Чистота #выборов #дилемма #CAP #теоремы #кластер #Kafka
Чистота выборов и дилемма CAP-теоремы в кластере Apache Kafka
Как Apache Kafka реализует компромиссы CAP-теоремы и при чем здесь чистые выборы лидера: проблемы целостности, доступности и устойчивости в распределенной системе с репликацией данных.
CAP-теорема в кластере Apache Kafka
При публикации сообщений в Apache Kafka, развернутой в кластере из нескольких узлов, данные сохраняются в брокере-лидере раздела, а затем реплицируются по брокерам-подписчикам согласно заданному значению фактора репликации. В большинстве случаев публикация выполняется успешно, но иногда может возникнуть ошибка, что лидер раздела недоступен.
Статья
Курсы: DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Чистота выборов и дилемма CAP-теоремы в кластере Apache Kafka
Как Apache Kafka реализует компромиссы CAP-теоремы и при чем здесь чистые выборы лидера: проблемы целостности, доступности и устойчивости в распределенной системе с репликацией данных.
CAP-теорема в кластере Apache Kafka
При публикации сообщений в Apache Kafka, развернутой в кластере из нескольких узлов, данные сохраняются в брокере-лидере раздела, а затем реплицируются по брокерам-подписчикам согласно заданному значению фактора репликации. В большинстве случаев публикация выполняется успешно, но иногда может возникнуть ошибка, что лидер раздела недоступен.
Статья
Курсы: DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Trino #расширить #возможности #плагины
Как расширить возможности Trino с помощью плагинов
Почему Trino такой гибкий: плагинная архитектура SQL-движка, зависимости SPI-интерфейса и последовательность создания пользовательского плагина.
Плагинная архитектура Trino и как она работает
Благодаря настраиваемым коннекторам Trino может подключаться к любым источникам, от реляционных баз данных до NoSQL-хранилищ. При этом коннекторы – это частный случай плагина. С точки зрения проектирования ПО, Trino имеет плагинную архитектуру, когда к единому ядру подключаются модули, каждый из которых реализует одну или несколько функциональных возможностей.
Статья
Курсы: TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Как расширить возможности Trino с помощью плагинов
Почему Trino такой гибкий: плагинная архитектура SQL-движка, зависимости SPI-интерфейса и последовательность создания пользовательского плагина.
Плагинная архитектура Trino и как она работает
Благодаря настраиваемым коннекторам Trino может подключаться к любым источникам, от реляционных баз данных до NoSQL-хранилищ. При этом коннекторы – это частный случай плагина. С точки зрения проектирования ПО, Trino имеет плагинную архитектуру, когда к единому ядру подключаются модули, каждый из которых реализует одну или несколько функциональных возможностей.
Статья
Курсы: TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#колоночные #форматы #Parquet #ORC #ML
Почему колоночные форматы Parquet и ORC не подходят для ML-нагрузок
Чем ML-сценарии работы с данными отличаются от типовых аналитических нагрузок и почему колоночные форматы не справляются с ними: сложности Parquet и ORC в хранении данных для машинного обучения.
Почему колоночные форматы не справляются со всеми ML-сценариями
Хотя колоночный формат хранения данных хорошо подходит для многих современных сценариев, таких как машинное обучение или сложные аналитические запросы к большим наборам информации, он имеет некоторые проблемы с производительностью. Исторически колоночное хранение появилось позже строкового, когда все данные в одной строке таблицы располагаются вместе.
Статья
Курсы: MLOPS PRAR
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Почему колоночные форматы Parquet и ORC не подходят для ML-нагрузок
Чем ML-сценарии работы с данными отличаются от типовых аналитических нагрузок и почему колоночные форматы не справляются с ними: сложности Parquet и ORC в хранении данных для машинного обучения.
Почему колоночные форматы не справляются со всеми ML-сценариями
Хотя колоночный формат хранения данных хорошо подходит для многих современных сценариев, таких как машинное обучение или сложные аналитические запросы к большим наборам информации, он имеет некоторые проблемы с производительностью. Исторически колоночное хранение появилось позже строкового, когда все данные в одной строке таблицы располагаются вместе.
Статья
Курсы: MLOPS PRAR
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Как #создать #собственный #Trino #пример
Как создать собственный плагин Trino: практический пример
Пишем собственный плагин Trino для работы с пользовательским типом данных: практический пример создания и регистрации своих классов и pom-файла.
Пример реализации своего плагина Trino
О том, что гибкость Trino обеспечивается благодаря его плагинной архитектуре, я недавно писала здесь. Сегодня рассмотрим пример создания своего плагина, который реализует возможность работы с пользовательским типом данных.
Статья
Курсы: TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Как создать собственный плагин Trino: практический пример
Пишем собственный плагин Trino для работы с пользовательским типом данных: практический пример создания и регистрации своих классов и pom-файла.
Пример реализации своего плагина Trino
О том, что гибкость Trino обеспечивается благодаря его плагинной архитектуре, я недавно писала здесь. Сегодня рассмотрим пример создания своего плагина, который реализует возможность работы с пользовательским типом данных.
Статья
Курсы: TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
⚡️⚡️⚡️Коллеги, мы продолжаем знакомить вас с современным SQL движком с открытым кодом – Trino и проводим второй бесплатный практический митап "Исполнение запросов: Trino и Spark".
Мероприятие состоится 10 апреля с 17.00 до 19.00 часов.
Подробная программа и регистрация на мероприятие по ссылке https://shkola-bolshih-dannyh.timepad.ru/event/3308622/
На meetup мы на развернутом в яндекс-облаке кластере разберемся с тем, как Trino исполняет запросы. Кратко вспомним, как это делает другой движок – Apache Spark.
Погрузившись в детали процесса исполнения запросов (stage, task, driver), на примере некоторых типовых запросов к данным бенчмарка TPC-DS познакомимся с работой планировщика Trino и сравним процесс выполнения запроса в Trino с тем, как аналогичные вычисления выполняет Apache Spark, постараемся разобраться с причинами более высокой производительности, которую достигает Trino.
Мероприятие состоится 10 апреля с 17.00 до 19.00 часов.
Подробная программа и регистрация на мероприятие по ссылке https://shkola-bolshih-dannyh.timepad.ru/event/3308622/
На meetup мы на развернутом в яндекс-облаке кластере разберемся с тем, как Trino исполняет запросы. Кратко вспомним, как это делает другой движок – Apache Spark.
Погрузившись в детали процесса исполнения запросов (stage, task, driver), на примере некоторых типовых запросов к данным бенчмарка TPC-DS познакомимся с работой планировщика Trino и сравним процесс выполнения запроса в Trino с тем, как аналогичные вычисления выполняет Apache Spark, постараемся разобраться с причинами более высокой производительности, которую достигает Trino.
shkola-bolshih-dannyh.timepad.ru
Бесплатный meetup «Исполнение запросов: Trino и Spark» / События на TimePad.ru
Познакомим Вас с распределенным SQL движком TRINO, разработанным для работы с большими датасетами, распределенными между одним или несколькими неоднородными источниками данных технологией
#Удаление #Kafka #проблемы #решить
Удаление топика Kafka: неочевидные проблемы и как их решить
Почему нельзя просто взять и удалить топик Apache Kafka: что проверить и перенастроить, с помощью каких инструментов и чем можно обойтись вместо непосредственного удаления.
Проблемы удаления топика Apache Kafka и их решения
Когда у вас есть собственный инстанс или даже кластер Apache Kafka с полными правами на все манипуляции с топиками, вопрос о трудностях их создания или удаления даже не стоит. Однако, в корпоративной среде, когда Kafka используется в качестве платформенного решения межсервисной интеграции, такие операции администрирования находятся в области ответственности платформенных инженеров.
Статья
Курсы: DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Удаление топика Kafka: неочевидные проблемы и как их решить
Почему нельзя просто взять и удалить топик Apache Kafka: что проверить и перенастроить, с помощью каких инструментов и чем можно обойтись вместо непосредственного удаления.
Проблемы удаления топика Apache Kafka и их решения
Когда у вас есть собственный инстанс или даже кластер Apache Kafka с полными правами на все манипуляции с топиками, вопрос о трудностях их создания или удаления даже не стоит. Однако, в корпоративной среде, когда Kafka используется в качестве платформенного решения межсервисной интеграции, такие операции администрирования находятся в области ответственности платформенных инженеров.
Статья
Курсы: DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#релиз #Kafka #новости
Долгожданный релиз Apache Kafka 4.0: главные новости
Полный отказ от ZooKeeper, изменение протокола перебалансировки потребителей, защита транзакций на стороне сервера, ELR-реплики и другие важные новинки Apache Kafka 4.0.
Главные изменения в брокерах, продюсерах и потребителях Apache Kafka 4.0
Несколько дней назад, 18 марта 2025 года вышел мажорный релиз Apache Kafka 4.0 – первый крупный выпуск, работающий полностью без Apache ZooKeeper. Работая в режиме KRaft по умолчанию, Kafka упрощает развертывание и управление, устраняя сложность поддержки внешнего компонента. Это изменение значительно снижает эксплуатационные расходы, повышает масштабируемость и оптимизирует административные задачи.
Статья
Курсы: DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Долгожданный релиз Apache Kafka 4.0: главные новости
Полный отказ от ZooKeeper, изменение протокола перебалансировки потребителей, защита транзакций на стороне сервера, ELR-реплики и другие важные новинки Apache Kafka 4.0.
Главные изменения в брокерах, продюсерах и потребителях Apache Kafka 4.0
Несколько дней назад, 18 марта 2025 года вышел мажорный релиз Apache Kafka 4.0 – первый крупный выпуск, работающий полностью без Apache ZooKeeper. Работая в режиме KRaft по умолчанию, Kafka упрощает развертывание и управление, устраняя сложность поддержки внешнего компонента. Это изменение значительно снижает эксплуатационные расходы, повышает масштабируемость и оптимизирует административные задачи.
Статья
Курсы: DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#JOIN #PostgreSQL #ClickHouse
Вместо тысячи JOIN’ов: изменение структуры данных для приема изменений из PostgreSQL в ClickHouse
Денормализация таблиц, оптимизация SQL-запросов, словари вместо измерений и AggregatingMergeTree-движок с инкрементными матпредставлениями для приема измененных данных из PostgreSQL в ClickHouse.
Оптимизация SQL-запросов
Хотя передача изменений из PostgreSQL в ClickHouse может сопровождаться дублированием или потерями данных, эти проблемы решаемы, о чем мы рассказывали здесь и здесь. Однако, репликация данных из реляционной базы с сильной степенью нормализации в колоночное денормализованное хранилище предполагает изменение структуры данных.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Вместо тысячи JOIN’ов: изменение структуры данных для приема изменений из PostgreSQL в ClickHouse
Денормализация таблиц, оптимизация SQL-запросов, словари вместо измерений и AggregatingMergeTree-движок с инкрементными матпредставлениями для приема измененных данных из PostgreSQL в ClickHouse.
Оптимизация SQL-запросов
Хотя передача изменений из PostgreSQL в ClickHouse может сопровождаться дублированием или потерями данных, эти проблемы решаемы, о чем мы рассказывали здесь и здесь. Однако, репликация данных из реляционной базы с сильной степенью нормализации в колоночное денормализованное хранилище предполагает изменение структуры данных.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Несогласованность #хранилище #найти #обезвредить
Несогласованность в хранилищах и озерах данных: найти и обезвредить
Почему в одной организации возникает рассогласование данных, чем опасна такая рассинхронизация, как ее обнаружить и устранить: подходы и решения для повышения качества данных.
Что такое data silos и как найти локальные «болота данных»
Рассогласование в данных возникает при разной логике обработки одной и той же информации. Это мешает принимать объективные решения, основанные на данных. Например, один отдел агрегирует продажи на уровне региона, а другой — на уровне всей страны. При попытке объединить эти данные для общей картины продаж компания сталкивается с противоречивыми показателями, что мешает точной оценке эффективности бизнеса.
Статья
Курсы: ARMG PRAR TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Несогласованность в хранилищах и озерах данных: найти и обезвредить
Почему в одной организации возникает рассогласование данных, чем опасна такая рассинхронизация, как ее обнаружить и устранить: подходы и решения для повышения качества данных.
Что такое data silos и как найти локальные «болота данных»
Рассогласование в данных возникает при разной логике обработки одной и той же информации. Это мешает принимать объективные решения, основанные на данных. Например, один отдел агрегирует продажи на уровне региона, а другой — на уровне всей страны. При попытке объединить эти данные для общей картины продаж компания сталкивается с противоречивыми показателями, что мешает точной оценке эффективности бизнеса.
Статья
Курсы: ARMG PRAR TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ClickHouse #скорость #вставки #факторы #влияет
Что влияет на скорость вставки данных в ClickHouse: главные факторы
Как выполняется вставка данных в ClickHouse, от чего зависит ее скорость и каким образом ее повысить: последовательность операций загрузки и ее оптимизации.
От чего зависит скорость вставки данных в ClickHouse
Поскольку ClickHouse часто используется для построения хранилищ или витрин данных, скорость загрузки данных в эту базу очень важна. Хотя на время вставки данных в ClickHouse влияют множество факторов, включая настройки ETL/ELT-движков, с точки зрения самого колоночного хранилища можно выделить следующие ключевые категории, определяющих скорость загрузки данных:
Статья
Курсы: CLICH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Что влияет на скорость вставки данных в ClickHouse: главные факторы
Как выполняется вставка данных в ClickHouse, от чего зависит ее скорость и каким образом ее повысить: последовательность операций загрузки и ее оптимизации.
От чего зависит скорость вставки данных в ClickHouse
Поскольку ClickHouse часто используется для построения хранилищ или витрин данных, скорость загрузки данных в эту базу очень важна. Хотя на время вставки данных в ClickHouse влияют множество факторов, включая настройки ETL/ELT-движков, с точки зрения самого колоночного хранилища можно выделить следующие ключевые категории, определяющих скорость загрузки данных:
Статья
Курсы: CLICH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Как #ускорить #вставку #данных #ClickHouse
Как ускорить вставку данных в ClickHouse с помощью формата, сжатия и интерфейса передачи
Как именно формат, сортировка, сжатие и интерфейс передачи данных в ClickHouse влияют на скорость операций загрузки: бенчмаркинговое сравнение от разработчиков колоночной СУБД.
В каком формате данные быстрее всего вставляются в ClickHouse
Продолжая недавний разговор про вставку данных в ClickHouse, сегодня рассмотрим, ключевые факторы, которые особенно сильно влияют на скорость загрузки данных в это колоночное хранилище. Бенчмаркинговое исследование, проведенное разработчиками ClickHouse, показывает, что наибольший вклад в скорость загрузки вносят формат данных, алгоритм их сжатия и интерфейс передачи.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Как ускорить вставку данных в ClickHouse с помощью формата, сжатия и интерфейса передачи
Как именно формат, сортировка, сжатие и интерфейс передачи данных в ClickHouse влияют на скорость операций загрузки: бенчмаркинговое сравнение от разработчиков колоночной СУБД.
В каком формате данные быстрее всего вставляются в ClickHouse
Продолжая недавний разговор про вставку данных в ClickHouse, сегодня рассмотрим, ключевые факторы, которые особенно сильно влияют на скорость загрузки данных в это колоночное хранилище. Бенчмаркинговое исследование, проведенное разработчиками ClickHouse, показывает, что наибольший вклад в скорость загрузки вносят формат данных, алгоритм их сжатия и интерфейс передачи.
Статья
Курсы: CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Публикация #больших #сообщений #Kafka
Публикация очень больших сообщений в Apache Kafka
Почему не рекомендуется публиковать в Kafka сообщения больших размеров, и как это сделать, если очень нужно: когда приходится перенастраивать конфигурации продюсера, топика и потребителя, и какие это параметры.
Почему не нужно публиковать в Kafka сообщения больших размеров
Apache Kafka, как и другие брокеры сообщений, оптимизирована для передачи данных небольшого размера. Обычно это текстовые форматы (JSON, AVRO, protobuf, XML и пр.), а не мультимедиа. Это ограничение обусловлено самим назначением брокера сообщений, который должен обеспечить асинхронную интеграцию приложений в почти реальном времени.
Статья
Курсы: DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Публикация очень больших сообщений в Apache Kafka
Почему не рекомендуется публиковать в Kafka сообщения больших размеров, и как это сделать, если очень нужно: когда приходится перенастраивать конфигурации продюсера, топика и потребителя, и какие это параметры.
Почему не нужно публиковать в Kafka сообщения больших размеров
Apache Kafka, как и другие брокеры сообщений, оптимизирована для передачи данных небольшого размера. Обычно это текстовые форматы (JSON, AVRO, protobuf, XML и пр.), а не мультимедиа. Это ограничение обусловлено самим назначением брокера сообщений, который должен обеспечить асинхронную интеграцию приложений в почти реальном времени.
Статья
Курсы: DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"