Школа Больших Данных
566 subscribers
117 photos
711 links
Канал Школы Больших Данных https://www.bigdataschool.ru/ - обучение технологиям Big Data: разработка приложений и администрирование кластеров Hadoop, Kafka, Spark, NoSQL, Python, ML и DS.
Тел: +7 (495) 41-41-121
Контакты: @Bigdataschool_msk @olga_burykh
Download Telegram
#ApacheHive #Hadoop
🧠Про основные join-операции в распределенной Big Data платформе Apache Hive. Также: применение этих операций к данным, хранящимся в этой СУБД. Про особенности работы с join-операциями в распределенной СУБД Apache Hive.
@BigDataSchool_ru
https://nosql-school.ru/blogs/hive-join/
#Impala #Hadoop
👀Про функции группировки и сортировки в распределенной СУБД Apache Impala. Какие есть особенности работы механизма группировки и сортировки Big Data, которые позволяют Impala-разработчику обрабатывать большие массивы данных любых типов с минимальными временными затратами.
@BigDataSchool_ru
https://nosql-school.ru/blogs/impala-group-sort/
#BigData #Hadoop
📝Как собрать статистические данные в таблицах Apache Hive, каким образом это поможет оптимизатору запросов и какие есть способы сбора статистики в этом популярном инструменте стека SQL-on-Hadoop.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-table-statistics-what-is-and-how-to-deal-with.html
#bigdata #hadoop
🪩Сегодня рассмотрим приемы оптимизации SQL-запросов в Apache Hive, выполняемых движком Tez.

Каким образом Tez рассчитывает оптимальное количество редукторов, зачем включать индексацию фильтров, как статистика таблицы помогает улучшить план выполнения запросов и что за конфигурации нужно менять.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/optimizing-hive-queries-with-tez-engine.html
#BigData #Hadoop
😱Рассмотрим основные улучшения и исправленные ошибки минорного релиза Apache Hive (для работы с Hadoop версии 3), которые пригодятся дата-инженеру и разработчику распределенных приложений аналитики больших данных
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hive-3-1-3-april-release-2022-overview.html
#BigData #Hadoop
Хотя Apache HBase обладает массой достоинств, эта NoSQL-СУБД имеет ряд недостатков: чрезмерная сложность и дороговизна эксплуатации, отсутствие вторичных индексов и ACID-транзакций.
Поэтому инженеры фотохостинга Pinterest приняли решение перейти на NewSQL-базу TiDB. Читайте далее, с какими сложностями они при этом столкнулись, и каким образом решили возникшие проблемы. @BigDataSchool_ru https://www.bigdataschool.ru/blog/pinterest-migration-case-from-hbase-to-tidb.html
#сертификация #bigdata #greenplum #hadoop #kafka #spark
📌Обладая огромным практическим опытом, наша Школа Больших Данных начала разработку профессиональной вендор-независимой сертификации по Greenplum, Apache Hadoop, Spark и Kafka.

Предлагаем Вам принять участие бесплатно в пилотном проекте сертификации.
Перед тем, как мы пригласим Вас на тестирование, просим ответить на несколько вопросов по ссылке ниже⬇️

Благодарим за интерес, старт пилота в марте 2023, предварительно мы с Вами свяжемся, чтобы пригласить на тестирование.
#bigdata #hadoop #статьи
Как защитить данные в кластере Apache HBase от несанкционированного доступа?
Как и любое хранилище, колоночно-ориентированная мультиверсионная NoSQL-СУБД типа key-value Apache HBase, которая работает поверх HDFS и обеспечивает возможности Google BigTable для Hadoop, имеет механизмы защиты данных.
Их можно разделить на следующие категории:
аутентификация и авторизация пользователей и сервисов, которые обращаются к этой СУБД
управление доступом на основе ролей (RBAC) определяет, какие пользователи или группы могут читать и записывать ресурс или выполнять конечную точку сопроцессора
метки видимости, которые позволяют вам помечать ячейки и контролировать доступ к помеченным ячейкам, чтобы дополнительно ограничить, кто может читать или записывать определенные подмножества ваших данных. Метки видимости хранятся в виде тегов.
шифрование данных в состоянии покоя в базовой файловой системе, как в HFiles, так и в WAL. Это защищает данные в состоянии покоя от злоумышленника, который имеет доступ к базовой файловой системе, без необходимости изменять реализацию клиента. Этот способ также может защитить от утечки данных из-за неправильно расположенных дисков, что может быть важно для соблюдения законодательных и нормативных требований.

Далее рассмотрим на примерах.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/hbase-security-methods.html
#Hadoop #Spark течка
Утечка токена делегирования Hadoop в приложении Spark и как ее избежать

24 сентября вышел очередной релиз Apache Spark. Он не содержит новых фичей, но зато в нем есть несколько полезных оптимизаций и исправлений безопасности. Читайте далее о самом главном из них, связанном с утечкой токена делегирования Hadoop.

Зачем нужны токены делегирования Hadoop в Spark и как они работают
В выпуске Apache Spark 3.5.3 исправлена ​​утечка токена делегирования Hadoop, если tokenRenewalInterval не установлен. Эта ошибка имеет высокий приоритет. Она означает, что если tokenRenewalInterval не установлен, HadoopFSDelegationTokenProvider#getTokenRenewalInterval извлечет некоторые токены и обновит их, чтобы получить значение интервала.
Статья
Курсы:
CORS SPOT SPARK MLSP GRAS
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"