Habr.com – Telegram

Habr.com

665 subscribers

83.4K links

Top of hubr.com with instant view.

Download Telegram

About

Blog

Apps

Platform

665 subscribers

Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

#БлогкомпанииСбер #Администрированиебазданных #BigData #Hadoop #bigdata #hadoop #администрированиебазданных IV

https://habr.com/ru/post/703608/

Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных ...

36 views18:30

Pyspark. Анализ больших данных, когда Pandas не достаточно

#Python #BigData #Hadoop #pandas #pyspark #bigdata #hadoop IV

https://habr.com/ru/post/708468/

Pyspark. Анализ больших данных, когда Pandas не достаточно

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку,...

44 views12:30

MapReduce: как и зачем?

#Java #Администрированиебазданных #Hadoop #mapreduce #hadoop #shuffle #БД IV

https://habr.com/ru/post/720050/

MapReduce: как и зачем?

Пример задачи Хотим автоматизировать огромный фруктовый рынок. На каждое событие будем писать строчку в структурированный лог. Этот лог не является частью runtime функционирования рынка, но может...

33 views11:30

Big Data в облаках

#БлогкомпанииGlowByte #Облачныесервисы #BigData #snowflake #databricks #greenplum #hadoop IV

https://habr.com/ru/companies/glowbyte/articles/729868/

Big Data в облаках

Всем привет! Сегодня хотим затронуть тему облачных технологий. Дмитрий Морозов, архитектор DWH в компании GlowByte, занимается хранилищами данных 6 лет, последние 2,5 года участвует в проектах,...

28 views13:30

Проблемы приземления данных из Kafka и их решения на Apache Flink

#БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Apache #BigData #apacheflink #kafka #hadoop IV

https://habr.com/ru/companies/oleg-bunin/articles/728520/

Проблемы приземления данных из Kafka и их решения на Apache Flink

Это история из профессионального опыта, поэтому её лучше передавать от основного действующего лица, который в ней непосредственно участвовал. Поэтому... Меня зовут Вадим Опольский и я работаю...

34 views21:30

Мнение об интенсивах Академии Яндекса + выпускной проект

#BigData #Визуализацияданных #Интернетмаркетинг #Hadoop #Облачныесервисы #clickhouse #ЯндексАкадемия IV

https://habr.com/ru/articles/732454/

Мнение об интенсивах Академии Яндекса + выпускной проект

Коротко о главном: Всем привет! Я выпускник данной Академии и победитель в конкурсе проектов. Я получил уникальный опыт, который будет полезен начинающим специалистам Этот обзор будет полезен тем,...

42 views16:00

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

#БлогкомпанииAvitoTech #Python #BigData #apachespark #аналитикаданных #spark #hadoop IV

https://habr.com/ru/companies/avito/articles/732870/

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, мы строим рекламные аукционы в Авито. Для работы с поисковыми логами мы пользуемся Apache Spark. Я расскажу о моём опыте...

47 views22:00

Кейс внедрение Dbt в Детском Мире

#SQL #BigData #Визуализацияданных #Hadoop #DataEngineering #dbt #sparksql IV

https://habr.com/ru/articles/740348/

Кейс внедрение Dbt в Детском Мире

Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире. На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения...

28 views14:15

Зачем Data-инженеру Spark

#БлогкомпанииVK #Hadoop #DataEngineering #spark #hadoop #orcфайл #колоночныесубд IV

https://habr.com/ru/companies/vk/articles/742084/

Зачем Data-инженеру Spark

Привет, Хабр, меня зовут Дима . В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно...

32 views13:45

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV

https://habr.com/ru/articles/760504/

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...

38 views17:45

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV

https://habr.com/ru/articles/760778/

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...

38 views20:45

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV

https://habr.com/ru/articles/761328/

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи...

41 views17:30

Hadoop в Облаке: история миграции сотен петабайт

#БлогкомпанииVK #БлогкомпанииОдноклассники #БлогкомпанииКонференцииОлегаБунинаОнтико #Высокаяпроизводительность #Облачныевычисления #hadoop #bigdata IV

https://habr.com/ru/companies/vk/articles/789002/

Hadoop в Облаке: история миграции сотен петабайт

Миграция с «железа» в облако в большинстве случаев уже не кажется чем-то сложным или удивительным — тенденция на развертывание решений в облаке общая и устоявшаяся. Но если с переносом в облачную...

46 views11:15

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

#БлогкомпанииVK #БлогкомпанииСбер #Хранениеданных #Хранилищаданных #Hadoop #хранилище IV

https://habr.com/ru/companies/vk/articles/797481/

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения,...

43 views11:15

SPARK для «малышей»

#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop

https://habr.com/ru/companies/alfa/articles/808415/

SPARK для «малышей»

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»). В прошлой статье мы рассмотрели пример создания Spark-сессий , здесь поговорим о возможностях и функция...

37 views15:00

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark

https://habr.com/ru/companies/lamoda/articles/810705/

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...

38 views08:45

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering

https://habr.com/ru/articles/816997/

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1) , которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример,...

39 views15:30

«Школьный» курс по Apache Spark: оптимизация

#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache

https://habr.com/ru/companies/alfa/articles/829622/

Руководство по Apache Spark не для начинающих: оптимизация

В прошлой статье SPARK для «малышей» я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о...

43 views17:00

Современная Lakehouse-платформа данных Data Ocean Nova

#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala

https://habr.com/ru/articles/847770/

Современная Lakehouse-платформа данных Data Ocean Nova

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на...

39 views20:30

Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum

#trino #impala #greenplum #hadoop #mpp #dwh #bigdata

https://habr.com/ru/articles/866862/

Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum

Рис “Заяц, антилопа и сливы”. AI Generated Успешные тестирование производительности и нагрузочные испытания – важнейшие условия для выбора аналитической системы массивной обработки больших данных. В...

40 views07:45