Зачем Data-инженеру Spark
#БлогкомпанииVK #Hadoop #DataEngineering #spark #hadoop #orcфайл #колоночныесубд IV
https://habr.com/ru/companies/vk/articles/742084/
#БлогкомпанииVK #Hadoop #DataEngineering #spark #hadoop #orcфайл #колоночныесубд IV
https://habr.com/ru/companies/vk/articles/742084/
Хабр
Зачем Data-инженеру Spark
Привет, Хабр, меня зовут Дима . В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV
https://habr.com/ru/articles/760504/
#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV
https://habr.com/ru/articles/760504/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/760778/
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/760778/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/761328/
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/761328/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]
В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи...
Hadoop в Облаке: история миграции сотен петабайт
#БлогкомпанииVK #БлогкомпанииОдноклассники #БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Облачныевычисления #hadoop #bigdata IV
https://habr.com/ru/companies/vk/articles/789002/
#БлогкомпанииVK #БлогкомпанииОдноклассники #БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Облачныевычисления #hadoop #bigdata IV
https://habr.com/ru/companies/vk/articles/789002/
Хабр
Hadoop в Облаке: история миграции сотен петабайт
Миграция с «железа» в облако в большинстве случаев уже не кажется чем-то сложным или удивительным — тенденция на развертывание решений в облаке общая и устоявшаяся. Но если с переносом в облачную...
Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы
#БлогкомпанииVK #БлогкомпанииСбер #Хранениеданных #Хранилищаданных #Hadoop #хранилище IV
https://habr.com/ru/companies/vk/articles/797481/
#БлогкомпанииVK #БлогкомпанииСбер #Хранениеданных #Хранилищаданных #Hadoop #хранилище IV
https://habr.com/ru/companies/vk/articles/797481/
Хабр
Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы
Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения,...
SPARK для «малышей»
#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop
https://habr.com/ru/companies/alfa/articles/808415/
#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop
https://habr.com/ru/companies/alfa/articles/808415/
Хабр
SPARK для «малышей»
Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»). В прошлой статье мы рассмотрели пример создания Spark-сессий , здесь поговорим о возможностях и функция...
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark
https://habr.com/ru/companies/lamoda/articles/810705/
#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark
https://habr.com/ru/companies/lamoda/articles/810705/
Хабр
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...
[Туториал] Пишем собственные Spark Native Functions (Часть 2)
#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering
https://habr.com/ru/articles/816997/
#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering
https://habr.com/ru/articles/816997/
Хабр
[Туториал] Пишем собственные Spark Native Functions (Часть 2)
В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1) , которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример,...
«Школьный» курс по Apache Spark: оптимизация
#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache
https://habr.com/ru/companies/alfa/articles/829622/
#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache
https://habr.com/ru/companies/alfa/articles/829622/
Хабр
Руководство по Apache Spark не для начинающих: оптимизация
В прошлой статье SPARK для «малышей» я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о...
Современная Lakehouse-платформа данных Data Ocean Nova
#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala
https://habr.com/ru/articles/847770/
#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala
https://habr.com/ru/articles/847770/
Хабр
Современная Lakehouse-платформа данных Data Ocean Nova
Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на...
Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum
#trino #impala #greenplum #hadoop #mpp #dwh #bigdata
https://habr.com/ru/articles/866862/
#trino #impala #greenplum #hadoop #mpp #dwh #bigdata
https://habr.com/ru/articles/866862/
Хабр
Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum
Рис “Заяц, антилопа и сливы”. AI Generated Успешные тестирование производительности и нагрузочные испытания – важнейшие условия для выбора аналитической системы массивной обработки больших данных. В...