#ApacheHive #Hadoop
🧠Про основные join-операции в распределенной Big Data платформе Apache Hive. Также: применение этих операций к данным, хранящимся в этой СУБД. Про особенности работы с join-операциями в распределенной СУБД Apache Hive.
@BigDataSchool_ru
https://nosql-school.ru/blogs/hive-join/
🧠Про основные join-операции в распределенной Big Data платформе Apache Hive. Также: применение этих операций к данным, хранящимся в этой СУБД. Про особенности работы с join-операциями в распределенной СУБД Apache Hive.
@BigDataSchool_ru
https://nosql-school.ru/blogs/hive-join/
#Impala #Hadoop
👀Про функции группировки и сортировки в распределенной СУБД Apache Impala. Какие есть особенности работы механизма группировки и сортировки Big Data, которые позволяют Impala-разработчику обрабатывать большие массивы данных любых типов с минимальными временными затратами.
@BigDataSchool_ru
https://nosql-school.ru/blogs/impala-group-sort/
👀Про функции группировки и сортировки в распределенной СУБД Apache Impala. Какие есть особенности работы механизма группировки и сортировки Big Data, которые позволяют Impala-разработчику обрабатывать большие массивы данных любых типов с минимальными временными затратами.
@BigDataSchool_ru
https://nosql-school.ru/blogs/impala-group-sort/
Курсы NOSQL СУБД в Big Data: HBase, Hive, Impala, Greenplum, ClickHouse
Что такое группировка и сортировка и какую роль они играют для Impala
В этой статье мы поговорим про функции группировки и сортировки в распределенной СУБД A
#Hive #Hadoop
🥤Про особенности создания и работы индекса в распределенной Big Data платформе Apache Hive. Про особенности работы с индексами в распределенной среде Big Data СУБД Hive.
@BigDataSchool_ru
https://nosql-school.ru/blogs/hive-index/
🥤Про особенности создания и работы индекса в распределенной Big Data платформе Apache Hive. Про особенности работы с индексами в распределенной среде Big Data СУБД Hive.
@BigDataSchool_ru
https://nosql-school.ru/blogs/hive-index/
Курсы NOSQL СУБД в Big Data: HBase, Hive, Impala, Greenplum, ClickHouse
Что такое индекс и почему его использование так важно при работе в Hive
В прошлый раз мы говорили про драйвер JDBC и его использование в Hive. Сегодня поговорим про
#BigData #Hadoop
📝Как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-table-statistics-what-is-and-how-to-deal-with.html
📝Как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-table-statistics-what-is-and-how-to-deal-with.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
Зачем нужна статистика таблиц Apache Hive и как ее собрать
Мы уже писали, зачем нужна статистика таблиц при оптимизации SQL-запросов на примере Greenpl
#bigdata #hadoop
🪩Сегодня рассмотрим приемы оптимизации SQL-запросов в Apache Hive, выполняемых движком Tez.
Каким образом Tez рассчитывает оптимальное количество редукторов, зачем включать индексацию фильтров, как статистика таблицы помогает улучшить план выполнения запросов и что за конфигурации нужно менять.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/optimizing-hive-queries-with-tez-engine.html
🪩Сегодня рассмотрим приемы оптимизации SQL-запросов в Apache Hive, выполняемых движком Tez.
Каким образом Tez рассчитывает оптимальное количество редукторов, зачем включать индексацию фильтров, как статистика таблицы помогает улучшить план выполнения запросов и что за конфигурации нужно менять.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/optimizing-hive-queries-with-tez-engine.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
7 приемов оптимизации SQL-запросов в Apache Hive с движком Tez
Как ускорить выполнение SQL-запросов в Apache Hive с движком Tez: приемы и конфигурации системы для дата-инженера и аналитика данных
#BigData #Hadoop
😱Рассмотрим основные улучшения и исправленные ошибки минорного релиза Apache Hive (для работы с Hadoop версии 3), которые пригодятся дата-инженеру и разработчику распределенных приложений аналитики больших данных
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-3-1-3-april-release-2022-overview.html
😱Рассмотрим основные улучшения и исправленные ошибки минорного релиза Apache Hive (для работы с Hadoop версии 3), которые пригодятся дата-инженеру и разработчику распределенных приложений аналитики больших данных
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-3-1-3-april-release-2022-overview.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
Apache Hive 3.1.3: обзор обновлений от 8 апреля 2022
Основные улучшения и исправленные ошибки Apache Hive 3.1.3 – краткий обзор апрельского релиза 2022 для дата-инженера и разработчика Big Data
#BigData #Hadoop
❎Хотя Apache HBase обладает массой достоинств, эта NoSQL-СУБД имеет ряд недостатков: чрезмерная сложность и дороговизна эксплуатации, отсутствие вторичных индексов и ACID-транзакций.
Поэтому инженеры фотохостинга Pinterest приняли решение перейти на NewSQL-базу TiDB. Читайте далее, с какими сложностями они при этом столкнулись, и каким образом решили возникшие проблемы. @BigDataSchool_ru https://www.bigdataschool.ru/blog/pinterest-migration-case-from-hbase-to-tidb.html
❎Хотя Apache HBase обладает массой достоинств, эта NoSQL-СУБД имеет ряд недостатков: чрезмерная сложность и дороговизна эксплуатации, отсутствие вторичных индексов и ACID-транзакций.
Поэтому инженеры фотохостинга Pinterest приняли решение перейти на NewSQL-базу TiDB. Читайте далее, с какими сложностями они при этом столкнулись, и каким образом решили возникшие проблемы. @BigDataSchool_ru https://www.bigdataschool.ru/blog/pinterest-migration-case-from-hbase-to-tidb.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
Миграция с Apache HBase в TiDB: кейс Pinterest
Хотя Apache HBase обладает массой достоинств, такими как строгая согласованность на уровне с
#BigData #Hadoop
🎢Сегодня рассмотрим кейс компании PayPal, которой удалось ускорить работу Hive с помощью open-source библиотеки Dione.
Зачем индексировать данные в HDFS и как это сделать быстро. Примеры для курсов по Apache Hadoop и Spark.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/dione-library-by-paypal-to-index-hdfs-hive-and-spark.html
🎢Сегодня рассмотрим кейс компании PayPal, которой удалось ускорить работу Hive с помощью open-source библиотеки Dione.
Зачем индексировать данные в HDFS и как это сделать быстро. Примеры для курсов по Apache Hadoop и Spark.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/dione-library-by-paypal-to-index-hdfs-hive-and-spark.html
Курсы Big Data,Arenadata,Greenplum, Kafka и Spark
Быстрая индексация данных в HDFS, Hadoop и Spark с библиотекой Dione от PayPal
Зачем индексировать данные в HDFS и как это сделать быстро: обзор библиотеки Dione от PayPal для Spark и Hive – примеры для дата-инженеров
#сертификация #bigdata #greenplum #hadoop #kafka #spark
📌Обладая огромным практическим опытом, наша Школа Больших Данных начала разработку профессиональной вендор-независимой сертификации по Greenplum, Apache Hadoop, Spark и Kafka.
Предлагаем Вам принять участие бесплатно в пилотном проекте сертификации.
Перед тем, как мы пригласим Вас на тестирование, просим ответить на несколько вопросов по ссылке ниже⬇️
Благодарим за интерес, старт пилота в марте 2023, предварительно мы с Вами свяжемся, чтобы пригласить на тестирование.
📌Обладая огромным практическим опытом, наша Школа Больших Данных начала разработку профессиональной вендор-независимой сертификации по Greenplum, Apache Hadoop, Spark и Kafka.
Предлагаем Вам принять участие бесплатно в пилотном проекте сертификации.
Перед тем, как мы пригласим Вас на тестирование, просим ответить на несколько вопросов по ссылке ниже⬇️
Благодарим за интерес, старт пилота в марте 2023, предварительно мы с Вами свяжемся, чтобы пригласить на тестирование.
#bigdata #hadoop #статьи
❓Как защитить данные в кластере Apache HBase от несанкционированного доступа?
Как и любое хранилище, колоночно-ориентированная мультиверсионная NoSQL-СУБД типа key-value Apache HBase, которая работает поверх HDFS и обеспечивает возможности Google BigTable для Hadoop, имеет механизмы защиты данных.
Их можно разделить на следующие категории:
✅аутентификация и авторизация пользователей и сервисов, которые обращаются к этой СУБД
✅управление доступом на основе ролей (RBAC) определяет, какие пользователи или группы могут читать и записывать ресурс или выполнять конечную точку сопроцессора
✅метки видимости, которые позволяют вам помечать ячейки и контролировать доступ к помеченным ячейкам, чтобы дополнительно ограничить, кто может читать или записывать определенные подмножества ваших данных. Метки видимости хранятся в виде тегов.
✅шифрование данных в состоянии покоя в базовой файловой системе, как в HFiles, так и в WAL. Это защищает данные в состоянии покоя от злоумышленника, который имеет доступ к базовой файловой системе, без необходимости изменять реализацию клиента. Этот способ также может защитить от утечки данных из-за неправильно расположенных дисков, что может быть важно для соблюдения законодательных и нормативных требований.
Далее рассмотрим на примерах.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hbase-security-methods.html
❓Как защитить данные в кластере Apache HBase от несанкционированного доступа?
Как и любое хранилище, колоночно-ориентированная мультиверсионная NoSQL-СУБД типа key-value Apache HBase, которая работает поверх HDFS и обеспечивает возможности Google BigTable для Hadoop, имеет механизмы защиты данных.
Их можно разделить на следующие категории:
✅аутентификация и авторизация пользователей и сервисов, которые обращаются к этой СУБД
✅управление доступом на основе ролей (RBAC) определяет, какие пользователи или группы могут читать и записывать ресурс или выполнять конечную точку сопроцессора
✅метки видимости, которые позволяют вам помечать ячейки и контролировать доступ к помеченным ячейкам, чтобы дополнительно ограничить, кто может читать или записывать определенные подмножества ваших данных. Метки видимости хранятся в виде тегов.
✅шифрование данных в состоянии покоя в базовой файловой системе, как в HFiles, так и в WAL. Это защищает данные в состоянии покоя от злоумышленника, который имеет доступ к базовой файловой системе, без необходимости изменять реализацию клиента. Этот способ также может защитить от утечки данных из-за неправильно расположенных дисков, что может быть важно для соблюдения законодательных и нормативных требований.
Далее рассмотрим на примерах.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hbase-security-methods.html
Курсы Big Data, Hadoop, Arenadata, Kafka и Spark
Безопасность данных в Apache HBase
Как защитить данные в кластере Apache HBase: аутентификация и авторизация пользователей, ACL-списки и команды управления доступом к таблицам
#Hadoop #Spark #утечка
Утечка токена делегирования Hadoop в приложении Spark и как ее избежать
24 сентября вышел очередной релиз Apache Spark. Он не содержит новых фичей, но зато в нем есть несколько полезных оптимизаций и исправлений безопасности. Читайте далее о самом главном из них, связанном с утечкой токена делегирования Hadoop.
Зачем нужны токены делегирования Hadoop в Spark и как они работают
В выпуске Apache Spark 3.5.3 исправлена утечка токена делегирования Hadoop, если tokenRenewalInterval не установлен. Эта ошибка имеет высокий приоритет. Она означает, что если tokenRenewalInterval не установлен, HadoopFSDelegationTokenProvider#getTokenRenewalInterval извлечет некоторые токены и обновит их, чтобы получить значение интервала.
Статья
Курсы: CORS SPOT SPARK MLSP GRAS
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Утечка токена делегирования Hadoop в приложении Spark и как ее избежать
24 сентября вышел очередной релиз Apache Spark. Он не содержит новых фичей, но зато в нем есть несколько полезных оптимизаций и исправлений безопасности. Читайте далее о самом главном из них, связанном с утечкой токена делегирования Hadoop.
Зачем нужны токены делегирования Hadoop в Spark и как они работают
В выпуске Apache Spark 3.5.3 исправлена утечка токена делегирования Hadoop, если tokenRenewalInterval не установлен. Эта ошибка имеет высокий приоритет. Она означает, что если tokenRenewalInterval не установлен, HadoopFSDelegationTokenProvider#getTokenRenewalInterval извлечет некоторые токены и обновит их, чтобы получить значение интервала.
Статья
Курсы: CORS SPOT SPARK MLSP GRAS
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"