Школа Больших Данных

Курсы NOSQL СУБД в Big Data: HBase, Hive, Impala, Greenplum, ClickHouse

#Hive #Hadoop
🥤Про особенности создания и работы индекса в распределенной Big Data платформе Apache Hive. Про особенности работы с индексами в распределенной среде Big Data СУБД Hive.
@BigDataSchool_ru
https://nosql-school.ru/blogs/hive-index/

Что такое индекс и почему его использование так важно при работе в Hive

В прошлый раз мы говорили про драйвер JDBC и его использование в Hive. Сегодня поговорим про

78 views07:00

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

#BigData #Hadoop
📝Как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-table-statistics-what-is-and-how-to-deal-with.html

Зачем нужна статистика таблиц Apache Hive и как ее собрать

Мы уже писали, зачем нужна статистика таблиц при оптимизации SQL-запросов на примере Greenpl

103 views05:00

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

#bigdata #hadoop
🪩Сегодня рассмотрим приемы оптимизации SQL-запросов в Apache Hive, выполняемых движком Tez.

Каким образом Tez рассчитывает оптимальное количество редукторов, зачем включать индексацию фильтров, как статистика таблицы помогает улучшить план выполнения запросов и что за конфигурации нужно менять.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/optimizing-hive-queries-with-tez-engine.html

7 приемов оптимизации SQL-запросов в Apache Hive с движком Tez

Как ускорить выполнение SQL-запросов в Apache Hive с движком Tez: приемы и конфигурации системы для дата-инженера и аналитика данных

115 views07:00

Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

#BigData #Hadoop
😱Рассмотрим основные улучшения и исправленные ошибки минорного релиза Apache Hive (для работы с Hadoop версии 3), которые пригодятся дата-инженеру и разработчику распределенных приложений аналитики больших данных
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-3-1-3-april-release-2022-overview.html

Apache Hive 3.1.3: обзор обновлений от 8 апреля 2022

Основные улучшения и исправленные ошибки Apache Hive 3.1.3 – краткий обзор апрельского релиза 2022 для дата-инженера и разработчика Big Data

121 views07:00

Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

#BigData #Hadoop
❎Хотя Apache HBase обладает массой достоинств, эта NoSQL-СУБД имеет ряд недостатков: чрезмерная сложность и дороговизна эксплуатации, отсутствие вторичных индексов и ACID-транзакций.
Поэтому инженеры фотохостинга Pinterest приняли решение перейти на NewSQL-базу TiDB. Читайте далее, с какими сложностями они при этом столкнулись, и каким образом решили возникшие проблемы. @BigDataSchool_ru https://www.bigdataschool.ru/blog/pinterest-migration-case-from-hbase-to-tidb.html

Миграция с Apache HBase в TiDB: кейс Pinterest

Хотя Apache HBase обладает массой достоинств, такими как строгая согласованность на уровне с

127 views07:00

Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

#BigData #Hadoop
🎢Сегодня рассмотрим кейс компании PayPal, которой удалось ускорить работу Hive с помощью open-source библиотеки Dione.

Зачем индексировать данные в HDFS и как это сделать быстро. Примеры для курсов по Apache Hadoop и Spark.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/dione-library-by-paypal-to-index-hdfs-hive-and-spark.html

Быстрая индексация данных в HDFS, Hadoop и Spark с библиотекой Dione от PayPal

Зачем индексировать данные в HDFS и как это сделать быстро: обзор библиотеки Dione от PayPal для Spark и Hive – примеры для дата-инженеров

138 views07:05

#сертификация #bigdata #greenplum #hadoop #kafka #spark
📌Обладая огромным практическим опытом, наша Школа Больших Данных начала разработку профессиональной вендор-независимой сертификации по Greenplum, Apache Hadoop, Spark и Kafka.

Предлагаем Вам принять участие бесплатно в пилотном проекте сертификации.
Перед тем, как мы пригласим Вас на тестирование, просим ответить на несколько вопросов по ссылке ниже⬇️

Благодарим за интерес, старт пилота в марте 2023, предварительно мы с Вами свяжемся, чтобы пригласить на тестирование.

246 viewsedited 10:25

ОПРОС ПО СЕРТИФИКАЦИИ📝

Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

#bigdata #hadoop #статьи
❓Как защитить данные в кластере Apache HBase от несанкционированного доступа?
Как и любое хранилище, колоночно-ориентированная мультиверсионная NoSQL-СУБД типа key-value Apache HBase, которая работает поверх HDFS и обеспечивает возможности Google BigTable для Hadoop, имеет механизмы защиты данных.
Их можно разделить на следующие категории:
✅аутентификация и авторизация пользователей и сервисов, которые обращаются к этой СУБД
✅управление доступом на основе ролей (RBAC) определяет, какие пользователи или группы могут читать и записывать ресурс или выполнять конечную точку сопроцессора
✅метки видимости, которые позволяют вам помечать ячейки и контролировать доступ к помеченным ячейкам, чтобы дополнительно ограничить, кто может читать или записывать определенные подмножества ваших данных. Метки видимости хранятся в виде тегов.
✅шифрование данных в состоянии покоя в базовой файловой системе, как в HFiles, так и в WAL. Это защищает данные в состоянии покоя от злоумышленника, который имеет доступ к базовой файловой системе, без необходимости изменять реализацию клиента. Этот способ также может защитить от утечки данных из-за неправильно расположенных дисков, что может быть важно для соблюдения законодательных и нормативных требований.

Далее рассмотрим на примерах.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hbase-security-methods.html

Безопасность данных в Apache HBase

Как защитить данные в кластере Apache HBase: аутентификация и авторизация пользователей, ACL-списки и команды управления доступом к таблицам

135 views08:44