Data Engineering / Инженерия данных / Data Engineer / DWH
1.9K subscribers
49 photos
7 videos
52 files
348 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Spark_v_deystvii.pdf
14.5 MB
Spark в действии.pdf

О книге👇

Анализ корпоративных данных начинается с чтения, фильтрации и объединения файлов и потоков из многих источников. Механизм обработки данных Spark способен обрабатывать эти разнообразные объемы информации как признанный лидер в этой области, обеспечивая в 100 раз большую скорость, чем например Hadoop. Благодаря поддержке SQL, интуитивно понятному интерфейсу и простому и ясному многоязыковому API вы можете использовать Spark без глубокого изучения новой сложной экосистемы. Эта книга научит вас создавать полноценные и завершенные аналитические приложения. В качестве примера используется полный конвейер обработки данных, поступающих со спутников NASA.

Для чтения этой книги не требуется какой-либо предварительный опыт работы со Spark, Scala или Hadoop.

#spark #scala #hadoop
👍9
PySpark Playground & Tutorial

https://www.sparkplayground.com/tutorials - здесь можно изучить работу со спарком (на английском)

https://www.sparkplayground.com/playground - здесь можно потренироваться онлайн

#spark #pyspark
🔥8