Habr.com – Telegram

Habr.com

676 subscribers

83.4K links

Top of hubr.com with instant view.

Download Telegram

About

Blog

Apps

Platform

676 subscribers

Зачем Data-инженеру Spark

#БлогкомпанииVK #Hadoop #DataEngineering #spark #hadoop #orcфайл #колоночныесубд IV

https://habr.com/ru/companies/vk/articles/742084/

Зачем Data-инженеру Spark

Привет, Хабр, меня зовут Дима . В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно...

32 views13:45

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV

https://habr.com/ru/articles/760504/

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...

38 views17:45

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV

https://habr.com/ru/articles/760778/

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...

38 views20:45

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV

https://habr.com/ru/articles/761328/

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи...

41 views17:30

Hadoop в Облаке: история миграции сотен петабайт

#БлогкомпанииVK #БлогкомпанииОдноклассники #БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Облачныевычисления #hadoop #bigdata IV

https://habr.com/ru/companies/vk/articles/789002/

Hadoop в Облаке: история миграции сотен петабайт

Миграция с «железа» в облако в большинстве случаев уже не кажется чем-то сложным или удивительным — тенденция на развертывание решений в облаке общая и устоявшаяся. Но если с переносом в облачную...

46 views11:15

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

#БлогкомпанииVK #БлогкомпанииСбер #Хранениеданных #Хранилищаданных #Hadoop #хранилище IV

https://habr.com/ru/companies/vk/articles/797481/

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения,...

43 views11:15

SPARK для «малышей»

#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop

https://habr.com/ru/companies/alfa/articles/808415/

SPARK для «малышей»

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»). В прошлой статье мы рассмотрели пример создания Spark-сессий , здесь поговорим о возможностях и функция...

37 views15:00

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark

https://habr.com/ru/companies/lamoda/articles/810705/

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...

38 views08:45

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering

https://habr.com/ru/articles/816997/

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1) , которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример,...

39 views15:30

«Школьный» курс по Apache Spark: оптимизация

#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache

https://habr.com/ru/companies/alfa/articles/829622/

Руководство по Apache Spark не для начинающих: оптимизация

В прошлой статье SPARK для «малышей» я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о...

43 views17:00

Современная Lakehouse-платформа данных Data Ocean Nova

#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala

https://habr.com/ru/articles/847770/

Современная Lakehouse-платформа данных Data Ocean Nova

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на...

39 views20:30

Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum

#trino #impala #greenplum #hadoop #mpp #dwh #bigdata

https://habr.com/ru/articles/866862/

Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum

Рис “Заяц, антилопа и сливы”. AI Generated Успешные тестирование производительности и нагрузочные испытания – важнейшие условия для выбора аналитической системы массивной обработки больших данных. В...

40 views07:45