Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти
#БлогкомпанииСбер #Администрированиебазданных #BigData #Hadoop #bigdata #hadoop #администрированиебазданных IV
https://habr.com/ru/post/703608/
#БлогкомпанииСбер #Администрированиебазданных #BigData #Hadoop #bigdata #hadoop #администрированиебазданных IV
https://habr.com/ru/post/703608/
Хабр
Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти
И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных ...
Pyspark. Анализ больших данных, когда Pandas не достаточно
#Python #BigData #Hadoop #pandas #pyspark #bigdata #hadoop IV
https://habr.com/ru/post/708468/
#Python #BigData #Hadoop #pandas #pyspark #bigdata #hadoop IV
https://habr.com/ru/post/708468/
Хабр
Pyspark. Анализ больших данных, когда Pandas не достаточно
Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку,...
MapReduce: как и зачем?
#Java #Администрированиебазданных #Hadoop #mapreduce #hadoop #shuffle #БД IV
https://habr.com/ru/post/720050/
#Java #Администрированиебазданных #Hadoop #mapreduce #hadoop #shuffle #БД IV
https://habr.com/ru/post/720050/
Хабр
MapReduce: как и зачем?
Пример задачи Хотим автоматизировать огромный фруктовый рынок. На каждое событие будем писать строчку в структурированный лог. Этот лог не является частью runtime функционирования рынка, но может...
Big Data в облаках
#БлогкомпанииGlowByte #Облачныесервисы #BigData #snowflake #databricks #greenplum #hadoop IV
https://habr.com/ru/companies/glowbyte/articles/729868/
#БлогкомпанииGlowByte #Облачныесервисы #BigData #snowflake #databricks #greenplum #hadoop IV
https://habr.com/ru/companies/glowbyte/articles/729868/
Хабр
Big Data в облаках
Всем привет! Сегодня хотим затронуть тему облачных технологий. Дмитрий Морозов, архитектор DWH в компании GlowByte, занимается хранилищами данных 6 лет, последние 2,5 года участвует в проектах,...
Проблемы приземления данных из Kafka и их решения на Apache Flink
#БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Apache #BigData #apacheflink #kafka #hadoop IV
https://habr.com/ru/companies/oleg-bunin/articles/728520/
#БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Apache #BigData #apacheflink #kafka #hadoop IV
https://habr.com/ru/companies/oleg-bunin/articles/728520/
Хабр
Проблемы приземления данных из Kafka и их решения на Apache Flink
Это история из профессионального опыта, поэтому её лучше передавать от основного действующего лица, который в ней непосредственно участвовал. Поэтому... Меня зовут Вадим Опольский и я работаю...
Мнение об интенсивах Академии Яндекса + выпускной проект
#BigData #Визуализацияданных #Интернетмаркетинг #Hadoop #Облачныесервисы #clickhouse #ЯндексАкадемия IV
https://habr.com/ru/articles/732454/
#BigData #Визуализацияданных #Интернетмаркетинг #Hadoop #Облачныесервисы #clickhouse #ЯндексАкадемия IV
https://habr.com/ru/articles/732454/
Хабр
Мнение об интенсивах Академии Яндекса + выпускной проект
Коротко о главном: Всем привет! Я выпускник данной Академии и победитель в конкурсе проектов. Я получил уникальный опыт, который будет полезен начинающим специалистам Этот обзор будет полезен тем,...
PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать
#БлогкомпанииAvitoTech #Python #BigData #apachespark #аналитикаданных #spark #hadoop IV
https://habr.com/ru/companies/avito/articles/732870/
#БлогкомпанииAvitoTech #Python #BigData #apachespark #аналитикаданных #spark #hadoop IV
https://habr.com/ru/companies/avito/articles/732870/
Хабр
PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать
Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, мы строим рекламные аукционы в Авито. Для работы с поисковыми логами мы пользуемся Apache Spark. Я расскажу о моём опыте...
Кейс внедрение Dbt в Детском Мире
#SQL #BigData #Визуализацияданных #Hadoop #DataEngineering #dbt #sparksql IV
https://habr.com/ru/articles/740348/
#SQL #BigData #Визуализацияданных #Hadoop #DataEngineering #dbt #sparksql IV
https://habr.com/ru/articles/740348/
Хабр
Кейс внедрение Dbt в Детском Мире
Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире. На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения...
Зачем Data-инженеру Spark
#БлогкомпанииVK #Hadoop #DataEngineering #spark #hadoop #orcфайл #колоночныесубд IV
https://habr.com/ru/companies/vk/articles/742084/
#БлогкомпанииVK #Hadoop #DataEngineering #spark #hadoop #orcфайл #колоночныесубд IV
https://habr.com/ru/companies/vk/articles/742084/
Хабр
Зачем Data-инженеру Spark
Привет, Хабр, меня зовут Дима . В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV
https://habr.com/ru/articles/760504/
#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV
https://habr.com/ru/articles/760504/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/760778/
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/760778/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/761328/
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/761328/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]
В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи...
Hadoop в Облаке: история миграции сотен петабайт
#БлогкомпанииVK #БлогкомпанииОдноклассники #БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Облачныевычисления #hadoop #bigdata IV
https://habr.com/ru/companies/vk/articles/789002/
#БлогкомпанииVK #БлогкомпанииОдноклассники #БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Облачныевычисления #hadoop #bigdata IV
https://habr.com/ru/companies/vk/articles/789002/
Хабр
Hadoop в Облаке: история миграции сотен петабайт
Миграция с «железа» в облако в большинстве случаев уже не кажется чем-то сложным или удивительным — тенденция на развертывание решений в облаке общая и устоявшаяся. Но если с переносом в облачную...
Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы
#БлогкомпанииVK #БлогкомпанииСбер #Хранениеданных #Хранилищаданных #Hadoop #хранилище IV
https://habr.com/ru/companies/vk/articles/797481/
#БлогкомпанииVK #БлогкомпанииСбер #Хранениеданных #Хранилищаданных #Hadoop #хранилище IV
https://habr.com/ru/companies/vk/articles/797481/
Хабр
Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы
Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения,...
SPARK для «малышей»
#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop
https://habr.com/ru/companies/alfa/articles/808415/
#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop
https://habr.com/ru/companies/alfa/articles/808415/
Хабр
SPARK для «малышей»
Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»). В прошлой статье мы рассмотрели пример создания Spark-сессий , здесь поговорим о возможностях и функция...
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark
https://habr.com/ru/companies/lamoda/articles/810705/
#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark
https://habr.com/ru/companies/lamoda/articles/810705/
Хабр
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...
[Туториал] Пишем собственные Spark Native Functions (Часть 2)
#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering
https://habr.com/ru/articles/816997/
#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering
https://habr.com/ru/articles/816997/
Хабр
[Туториал] Пишем собственные Spark Native Functions (Часть 2)
В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1) , которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример,...
«Школьный» курс по Apache Spark: оптимизация
#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache
https://habr.com/ru/companies/alfa/articles/829622/
#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache
https://habr.com/ru/companies/alfa/articles/829622/
Хабр
Руководство по Apache Spark не для начинающих: оптимизация
В прошлой статье SPARK для «малышей» я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о...
Современная Lakehouse-платформа данных Data Ocean Nova
#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala
https://habr.com/ru/articles/847770/
#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala
https://habr.com/ru/articles/847770/
Хабр
Современная Lakehouse-платформа данных Data Ocean Nova
Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на...
Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum
#trino #impala #greenplum #hadoop #mpp #dwh #bigdata
https://habr.com/ru/articles/866862/
#trino #impala #greenplum #hadoop #mpp #dwh #bigdata
https://habr.com/ru/articles/866862/
Хабр
Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum
Рис “Заяц, антилопа и сливы”. AI Generated Успешные тестирование производительности и нагрузочные испытания – важнейшие условия для выбора аналитической системы массивной обработки больших данных. В...