Hive & Spark
Hive является инфраструктурой для выполнения SQL-запросов над данными, хранящимися в Hadoop-кластере. Он использует MapReduce, Tez или Spark в качестве движка выполнения запросов.
Однако, поскольку Spark SQL поддерживает SQL-запросы и предоставляет распределенные API для обработки данных, у многих возникает вопрос: зачем использовать Hive, если есть Spark SQL?
Существует несколько причин, по которым организации могут продолжать использовать Hive:
1⃣ Совместимость с Hadoop. Hive был создан как инструмент для обработки больших данных в экосистеме Hadoop. Ключевым преимуществом для пользователей Hadoop является то, что Hive можно использовать для обработки данных, которые уже хранятся в Hadoop.
2⃣ Поддержка различных форматов хранения данных. Hive поддерживает множество форматов хранения данных, таких как Avro, ORC, Parquet, CSV и т.д. Это значит, что организации могут использовать Hive для выполнения SQL-запросов и анализа данных различных форматов.
3⃣ Наличие собственного языка запросов. В то время как Spark SQL использует ANSI SQL, Hive использует язык запросов, называемый HQL (Hive Query Language). HQL поддерживает ряд расширений, таких как трансформации таблиц, пользовательские функции и т.д. Некоторые пользователи могут предпочитать HQL за его удобство и гибкость.
Таким образом, использование Hive или Spark SQL зависит от потребностей конкретной организации. Если организация уже использует Hadoop и имеет множество данных, хранящихся в Hadoop, то Hive может быть для нее лучшим выбором. Если организация не привязана к Hadoop и требуется глубокая интеграция с подсистемами машинного обучения и аналитики, то Spark SQL может оказаться более подходящим.
#hive #hadoop #spark #mapreduce
Hive является инфраструктурой для выполнения SQL-запросов над данными, хранящимися в Hadoop-кластере. Он использует MapReduce, Tez или Spark в качестве движка выполнения запросов.
Однако, поскольку Spark SQL поддерживает SQL-запросы и предоставляет распределенные API для обработки данных, у многих возникает вопрос: зачем использовать Hive, если есть Spark SQL?
Существует несколько причин, по которым организации могут продолжать использовать Hive:
1⃣ Совместимость с Hadoop. Hive был создан как инструмент для обработки больших данных в экосистеме Hadoop. Ключевым преимуществом для пользователей Hadoop является то, что Hive можно использовать для обработки данных, которые уже хранятся в Hadoop.
2⃣ Поддержка различных форматов хранения данных. Hive поддерживает множество форматов хранения данных, таких как Avro, ORC, Parquet, CSV и т.д. Это значит, что организации могут использовать Hive для выполнения SQL-запросов и анализа данных различных форматов.
3⃣ Наличие собственного языка запросов. В то время как Spark SQL использует ANSI SQL, Hive использует язык запросов, называемый HQL (Hive Query Language). HQL поддерживает ряд расширений, таких как трансформации таблиц, пользовательские функции и т.д. Некоторые пользователи могут предпочитать HQL за его удобство и гибкость.
Таким образом, использование Hive или Spark SQL зависит от потребностей конкретной организации. Если организация уже использует Hadoop и имеет множество данных, хранящихся в Hadoop, то Hive может быть для нее лучшим выбором. Если организация не привязана к Hadoop и требуется глубокая интеграция с подсистемами машинного обучения и аналитики, то Spark SQL может оказаться более подходящим.
#hive #hadoop #spark #mapreduce
👍6
Начало
Если ты активно работаешь с данными, ты, вероятно, сталкивался с такими системами, как Snowflake, Databricks, Kafka и т.д., о которых было написано много статей о том, как они произвели революцию в обработке данных.
Однако, несмотря на всю эту шумиху, многие компании поняли, что всё это быстро становится дорогостоящим. Мониторинг и отработка отказов обходятся дорого, особенно в таких системах, как Kafka, Apache Spark и Snowflake, в которых много узлов.
Если тебе интересно:
Если да, то этот цикл постов для тебя. Представь, если бы твои затраты на обработку данных были настолько низкими, что тебе даже не пришлось бы их отслеживать!
Обсудим подход, который использует последние достижения в области обработки данных в оперативной памяти в сочетании с дешёвым и мощным железом для значительного снижения затрат на обработку данных!
#duckdb #python #etl #de #elt #kafka #spark #databricks #snowflake
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
🐍🦆
Построение эффективных дата-пайплайнов с помощью Python и DuckDB
TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов
👇👇👇
0⃣ Прелюдия
1️⃣ Начало
2️⃣ Проект
…
Построение эффективных дата-пайплайнов с помощью Python и DuckDB
TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов
👇👇👇
0⃣ Прелюдия
1️⃣ Начало
2️⃣ Проект
…
Блогпост про Apache Datafusion Comet.
🟣 почему все так хотят ускорить Apache Spark на DWH-нагрузках
🟣 что хорошо в Spark, а что хотелось бы видеть чуть иначе.
🟣 обзор Databricks Photon и Apache Gluten (incubating), которые предлагают плагины для Spark для замены JVM-рантайм на нативный
🟣 обзор Datafusion Comet, как оно работает под капотом, что уже умеет и в чём уникальные фишки, если сравнивать с Gluten или Photon
🟣 история личного контрибьюта автора поста:
🟡 как писать PhysicalExpr для Datafusion
🟡 generic листы в Apache Arrow
🟡 удобства
#datafusioncomet #datafusion #spark
rust-gdb
#datafusioncomet #datafusion #spark
Please open Telegram to view this post
VIEW IN TELEGRAM
Sem Sinchenko
Apache Datafusion Comet and the story of my first contribution to it
In this blog post, I will provide a brief high-level overview of projects designed to accelerate Apache Spark by the native physical execution, including Databricks Photon, Apache Datafusion Comet, and Apache Gluten (incubating). I will explain the problems…
❤🔥8
Apache Hive и Apache Spark — мощные инструменты для работы с большими данными, но они по-разному выполняют распределённую обработку.
Плюсы:
Минусы:
Плюсы:
Минусы:
#data #bigdata #hive #spark #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥5👏2😁1