Школа Больших Данных
635 subscribers
209 photos
809 links
Канал Школы Больших Данных https://www.bigdataschool.ru/ - обучение технологиям Big Data: разработка приложений и администрирование кластеров Hadoop, Kafka, Spark, NoSQL, Python, ML и DS.
Тел: +7 (495) 41-41-121
Контакты: @Bigdataschool_msk @olga_burykh
Download Telegram
#Масштабирование #Trino #кластер
Масштабирование Trino

Как ускорить работу Trino при росте нагрузки и сэкономить на кластере при ее сокращении: автомасштабирование рабочих узлов и операций записи, а также настройка групп ресурсов.

Масштабирование кластера
Классическим способом справиться с растущими вычислительными нагрузками в гомогенной распределенной системе является горизонтальное масштабирование кластера. Это сводится к добавлению новых узлов, которые отвечают за выполнение операций или хранение данных, а также балансировщиков, равномерно распределяющих нагрузку между узлами.
Статья
Курсы:
TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Проблемы #бесконечного #масштабирования #Trino #Gateway
Проблемы бесконечного масштабирования кластера и их решение с Trino Gateway


Что такое Trino Gateway, зачем он нужен и как работает: для чего делить один большой кластер Trino на несколько маленьких и как к ним обращаться без изменений на стороне клиентов.

Проблемы бесконечного масштабирования кластера
Благодаря горизонтальному масштабированию, о котором мы говорили вчера, кластер Trino можно расширять, добавляя новые рабочие узлы. Хотя в документации движка не сказано об ограничениях максимального количества узлов в кластере, на практике чрезмерно большие кластера делят на несколько более мелких. Оптимальное количество узлов в кластере – это всегда компромисс между производительностью, управляемостью и затратами на инфраструктуру.
Статья
Курсы:
TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#AirFlow #релиз
Что нас ждет в Apache AirFlow 3.0: обзор грядущего релиза

Изоляция рабочих процессов и универсальное выполнение на удаленных машинах в обновленной клиент-серверной архитектуре, версионирование DAG, активы данных и изменения интерфейсов: главные новинки Apache AirFlow 3.0.

Изоляция рабочих процессов и универсальное выполнение
В марте 2025 года ожидается выпуск бета-релиза Apache AirFlow, а общедоступная версия (GA) выйдет в середине апреля. До этого крупный выпуск выходил 5 лет назад: версия 2.0 в 2020 году. В выпуске 3.0 нас ждет много нового: внешнее выполнение задач, явное управление версиями DAG, планирование на основе событий и разделение API и GUI.
Статья
Курсы:
AIRF
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ClickHouse #использование #PostgreSQL #CDC #PeerDB
Совместное использование ClickHouse и PostgreSQL: CDC с PeerDB

Как передать изменения данных из транзакционной базы в аналитическую без дублей и задержек: CDC-ETL из PostgreSQL в ClickHouse с PeerDB.

CDC для ClickHouse с PeerDB и ClickPipes
Возможности Clickhouse позволяют построить на нем корпоративное хранилище данных целиком или реализовать отдельный слой, например, для денормализованных витрин. Также совместное использование транзакционных и аналитических баз данных обеспечивает получение информации в реальном времени и масштабируемую аналитику. Такая архитектура данных позволяет реализовать паттерн CQRS, разделив рабочие нагрузки на чтение и запись данных, попутно увеличив доступность и масштабируемость приложений.
Статья
Курсы:
CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Дубли #CDC #передача #PostgreSQL #ClickHouse
Дубли при CDC-передаче данных из PostgreSQL в ClickHouse и как их устранить

Почему табличный движок ReplacingMergeTree в PeerDB и ClickPipes не избавит от дублей при передаче измененных данных из PostgreSQL в ClickHouse и можно ли полностью выполнить дедупликацию с помощью модификатора FINAL, политики строк, обновляемых представлений или агрегатных и оконных функций.

Как движок ReplacingMergeTree допускает дубли при импорте изменений из PostgreSQL в ClickHouse
Недавно мы разбирали реализацию CDC-подхода к передаче данных из транзакционной базы PostgreSQL в аналитическое хранилище Clickhouse с помощью PeerDB и основанном на этом ETL/ELT-инструменте репликации ClickPipes — интеграционного движка для облачной версии.
Статья
Курсы:
CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Мультиязычные #конвейеры #Apache #Beam #обработка #данных
Мультиязычные конвейеры обработки данных в Apache Beam

Можно ли при разработке конвейера Apache Beam использовать преобразования из SDK разных языков программирования и как это сделать, избежав типичных ошибок.

Кросс-языковые преобразования и мультиязычные конвейеры Beam
Как и многие популярные фреймворки для создания распределенных приложений обработки данных (Apache Flink, Spark и другие движки), Apache Beam поддерживает несколько языков. В частности, эта собой унифицированная модель определения пакетных и потоковых конвейеров параллельной обработки данных имеет не только Java, Python и Go SDK, а также и декларативный YAML API, пример работы с которым я показывала здесь.
Статья
Курсы:
MK-K8S
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#конференция #дата_инженерия

🌞Коллеги, команда Онтико запускает новую конференцию по инженерии данных - Data Internals X.
🗓Офлайн, 23 сентября 2025 в Москве, Старт Хаб на Красном Октябре (ex. Digital October)

🪢В программе тонкости хранения и обработки данных, архитектуры хранилищ и платформ, истории успехов и провалов, а также практические кейсы по этим направлениям:
👉🏻Разработка СУБД и инструментов работы с данными
👉🏻Практические примеры внедрений
👉🏻Архитектура данных
👉🏻Управление данными
👉🏻Машинное обучение и искусственный интеллект в разработке инструментов управления данными

🔥До 12 мая идет прием докладов! Анна Вичугова из нашей Школы Больших Данных в программном комитете этой новой конференции активно приглашает вас к участию в качестве спикеров. Расскажите о своем опыте разработки, проектирования и внедрения новых СУБД, ETL-инструментов и платформенных решений, пообщайтесь с коллегами и познакомьтесь с интересными идеями!

💥Успевайте подать заявку до 12 мая 👇
https://cfp.datainternals.ru/

🙌🏼До встречи на конференции!🙌🏼
#ключи #сортировки #CDC #PostgreSQL #ClickHouse #качество #данные #что #делать
Как ключи сортировки при CDC-передаче данных из PostgreSQL в ClickHouse могут снизить качество данных и что с этим делать

Почему ключи сортировки в ClickHouse могут стать причиной появления дублей или пропусков при CDC-передаче изменений из PostgreSQL и как этого избежать: особенности логической репликации из транзакционной базы данных в аналитическую.

Влияние ключей сортировки на CDC-передачу изменений из PostgreSQL в ClickHouse
Продолжая разбираться с дублированием данных при передачи изменений из PostgreSQL в Clickhouse, сегодня поговорим о том, как на качество загруженных данных влияет ключ сортировки.
Статья
Курсы:
CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Чистота #выборов #дилемма #CAP #теоремы #кластер #Kafka
Чистота выборов и дилемма CAP-теоремы в кластере Apache Kafka

Как Apache Kafka реализует компромиссы CAP-теоремы и при чем здесь чистые выборы лидера: проблемы целостности, доступности и устойчивости в распределенной системе с репликацией данных.

CAP-теорема в кластере Apache Kafka
При публикации сообщений в Apache Kafka, развернутой в кластере из нескольких узлов, данные сохраняются в брокере-лидере раздела, а затем реплицируются по брокерам-подписчикам согласно заданному значению фактора репликации. В большинстве случаев публикация выполняется успешно, но иногда может возникнуть ошибка, что лидер раздела недоступен.
Статья
Курсы:
DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Trino #расширить #возможности #плагины
Как расширить возможности Trino с помощью плагинов

Почему Trino такой гибкий: плагинная архитектура SQL-движка, зависимости SPI-интерфейса и последовательность создания пользовательского плагина.

Плагинная архитектура Trino и как она работает
Благодаря настраиваемым коннекторам Trino может подключаться к любым источникам, от реляционных баз данных до NoSQL-хранилищ. При этом коннекторы – это частный случай плагина. С точки зрения проектирования ПО, Trino имеет плагинную архитектуру, когда к единому ядру подключаются модули, каждый из которых реализует одну или несколько функциональных возможностей.
Статья
Курсы:
TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#колоночные #форматы #Parquet #ORC #ML
Почему колоночные форматы Parquet и ORC не подходят для ML-нагрузок

Чем ML-сценарии работы с данными отличаются от типовых аналитических нагрузок и почему колоночные форматы не справляются с ними: сложности Parquet и ORC в хранении данных для машинного обучения.

Почему колоночные форматы не справляются со всеми ML-сценариями

Хотя колоночный формат хранения данных хорошо подходит для многих современных сценариев, таких как машинное обучение или сложные аналитические запросы к большим наборам информации, он имеет некоторые проблемы с производительностью. Исторически колоночное хранение появилось позже строкового, когда все данные в одной строке таблицы располагаются вместе.
Статья
Курсы:
MLOPS PRAR
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Как #создать #собственный #Trino #пример
Как создать собственный плагин Trino: практический пример

Пишем собственный плагин Trino для работы с пользовательским типом данных: практический пример создания и регистрации своих классов и pom-файла.

Пример реализации своего плагина Trino
О том, что гибкость Trino обеспечивается благодаря его плагинной архитектуре, я недавно писала здесь. Сегодня рассмотрим пример создания своего плагина, который реализует возможность работы с пользовательским типом данных.
Статья
Курсы:
TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
⚡️⚡️⚡️Коллеги, мы продолжаем знакомить вас с современным SQL движком с открытым кодом – Trino и проводим второй бесплатный практический митап "Исполнение запросов: Trino и Spark".

Мероприятие состоится 10 апреля с 17.00 до 19.00 часов.
Подробная программа и регистрация на мероприятие по ссылке https://shkola-bolshih-dannyh.timepad.ru/event/3308622/

На meetup мы на развернутом в яндекс-облаке кластере разберемся с тем, как Trino исполняет запросы. Кратко вспомним, как это делает другой движок – Apache Spark.

Погрузившись в детали процесса исполнения запросов (stage, task, driver), на примере некоторых типовых запросов к данным бенчмарка TPC-DS познакомимся с работой планировщика Trino и сравним процесс выполнения запроса в Trino с тем, как аналогичные вычисления выполняет Apache Spark, постараемся разобраться с причинами более высокой производительности, которую достигает Trino.
#Удаление #Kafka #проблемы #решить
Удаление топика Kafka: неочевидные проблемы и как их решить

Почему нельзя просто взять и удалить топик Apache Kafka: что проверить и перенастроить, с помощью каких инструментов и чем можно обойтись вместо непосредственного удаления.

Проблемы удаления топика Apache Kafka и их решения
Когда у вас есть собственный инстанс или даже кластер Apache Kafka с полными правами на все манипуляции с топиками, вопрос о трудностях их создания или удаления даже не стоит. Однако, в корпоративной среде, когда Kafka используется в качестве платформенного решения межсервисной интеграции, такие операции администрирования находятся в области ответственности платформенных инженеров.
Статья
Курсы:
DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#релиз #Kafka #новости
Долгожданный релиз Apache Kafka 4.0: главные новости

Полный отказ от ZooKeeper, изменение протокола перебалансировки потребителей, защита транзакций на стороне сервера, ELR-реплики и другие важные новинки Apache Kafka 4.0.

Главные изменения в брокерах, продюсерах и потребителях Apache Kafka 4.0
Несколько дней назад, 18 марта 2025 года вышел мажорный релиз Apache Kafka 4.0 – первый крупный выпуск, работающий полностью без Apache ZooKeeper. Работая в режиме KRaft по умолчанию, Kafka упрощает развертывание и управление, устраняя сложность поддержки внешнего компонента. Это изменение значительно снижает эксплуатационные расходы, повышает масштабируемость и оптимизирует административные задачи.
Статья
Курсы:
DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#JOIN #PostgreSQL #ClickHouse
Вместо тысячи JOIN’ов: изменение структуры данных для приема изменений из PostgreSQL в ClickHouse

Денормализация таблиц, оптимизация SQL-запросов, словари вместо измерений и AggregatingMergeTree-движок с инкрементными матпредставлениями для приема измененных данных из PostgreSQL в ClickHouse.

Оптимизация SQL-запросов
Хотя передача изменений из PostgreSQL в ClickHouse может сопровождаться дублированием или потерями данных, эти проблемы решаемы, о чем мы рассказывали здесь и здесь. Однако, репликация данных из реляционной базы с сильной степенью нормализации в колоночное денормализованное хранилище предполагает изменение структуры данных.
Статья
Курсы:
CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Несогласованность #хранилище #найти #обезвредить
Несогласованность в хранилищах и озерах данных: найти и обезвредить

Почему в одной организации возникает рассогласование данных, чем опасна такая рассинхронизация, как ее обнаружить и устранить: подходы и решения для повышения качества данных.

Что такое data silos и как найти локальные «болота данных»
Рассогласование в данных возникает при разной логике обработки одной и той же информации. Это мешает принимать объективные решения, основанные на данных. Например, один отдел агрегирует продажи на уровне региона, а другой — на уровне всей страны. При попытке объединить эти данные для общей картины продаж компания сталкивается с противоречивыми показателями, что мешает точной оценке эффективности бизнеса.
Статья
Курсы:
ARMG PRAR TRINO
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ClickHouse #скорость #вставки #факторы #влияет
Что влияет на скорость вставки данных в ClickHouse: главные факторы

Как выполняется вставка данных в ClickHouse, от чего зависит ее скорость и каким образом ее повысить: последовательность операций загрузки и ее оптимизации.

От чего зависит скорость вставки данных в ClickHouse
Поскольку ClickHouse часто используется для построения хранилищ или витрин данных, скорость загрузки данных в эту базу очень важна. Хотя на время вставки данных в ClickHouse влияют множество факторов, включая настройки ETL/ELT-движков, с точки зрения самого колоночного хранилища можно выделить следующие ключевые категории, определяющих скорость загрузки данных:
Статья
Курсы:
CLICH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Как #ускорить #вставку #данных #ClickHouse
Как ускорить вставку данных в ClickHouse с помощью формата, сжатия и интерфейса передачи

Как именно формат, сортировка, сжатие и интерфейс передачи данных в ClickHouse влияют на скорость операций загрузки: бенчмаркинговое сравнение от разработчиков колоночной СУБД.

В каком формате данные быстрее всего вставляются в ClickHouse
Продолжая недавний разговор про вставку данных в ClickHouse, сегодня рассмотрим, ключевые факторы, которые особенно сильно влияют на скорость загрузки данных в это колоночное хранилище. Бенчмаркинговое исследование, проведенное разработчиками ClickHouse, показывает, что наибольший вклад в скорость загрузки вносят формат данных, алгоритм их сжатия и интерфейс передачи.
Статья
Курсы:
CLICH YACH
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#Публикация #больших #сообщений #Kafka
Публикация очень больших сообщений в Apache Kafka

Почему не рекомендуется публиковать в Kafka сообщения больших размеров, и как это сделать, если очень нужно: когда приходится перенастраивать конфигурации продюсера, топика и потребителя, и какие это параметры.

Почему не нужно публиковать в Kafka сообщения больших размеров
Apache Kafka, как и другие брокеры сообщений, оптимизирована для передачи данных небольшого размера. Обычно это текстовые форматы (JSON, AVRO, protobuf, XML и пр.), а не мультимедиа. Это ограничение обусловлено самим назначением брокера сообщений, который должен обеспечить асинхронную интеграцию приложений в почти реальном времени.
Статья
Курсы:
DEVKI KAFKA
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"