Habr.com

Спиливаем spill-ы

#Блогкомпаниибилайн #Высокаяпроизводительность #Scala #BigData #DevOps #spark #bigdata IV

https://habr.com/ru/companies/beeline_tech/articles/743292/

Хабр

Спиливаем spill-ы

Привет! Меня зовут Александр Маркачев, я 3,5 года работаю на позиции Data Engineer в билайне и люблю открывать для себя что-то новое и интересное в работе. Так случилось и с темой, которой я...

32 views12:30

Habr.com

ClickHouse в ритейловом проекте

#БлогкомпанииX5Tech #ITинфраструктура #BigData #ITкомпании #DataEngineering #clickhouse #spark IV

https://habr.com/ru/companies/X5Tech/articles/743696/

Хабр

ClickHouse в ритейловом проекте

Всем привет! Всегда интересно узнавать, как устроено IT в различных сферах и компаниях: какие задачи ставятся и как находятся решения. Да и в целом, делиться опытом полезно! Меня зовут Илья Панов , я...

40 views22:15

Habr.com

[Перевод] Гарантии доставки и этика телепортации

#БлогкомпанииOTUS #Распределённыесистемы #spark #телепортация #распределенныесистемы #однократнаядоставка IV

https://habr.com/ru/companies/otus/articles/745774/

Хабр

Гарантии доставки и этика телепортации

Гарантии доставки и этика телепортации Распределенным системам приходится решать вопрос о том, какие именно гарантии доставки поддерживать. У нас есть различные варианты, начиная от отсутствия...

37 views19:15

Habr.com

[Перевод] Стайлгайд PySpark: как сделать код элегантным

#БлогкомпанииVK #Apache #DevOps #Kubernetes #Облачныевычисления #vkcloud #Spark IV

https://habr.com/ru/companies/vk/articles/759310/

Хабр

Стайлгайд PySpark: как сделать код элегантным

Команда VK Cloud перевела статью о правилах оформления кода в PySpark. Они не обязательны для исполнения, но помогут сделать ваш код более читабельным и удобным для последующих проверок и изменений....

32 views11:45

Habr.com

[Перевод] Стайлгайд PySpark: как сделать код элегантным

#БлогкомпанииVK #Python #Облачныевычисления #Apache #DevOps #vkcloud #Spark IV

https://habr.com/ru/companies/vk/articles/760416/

Хабр

Стайлгайд PySpark: как сделать код элегантным

43 views13:45

Habr.com

[Перевод] Пять подходов к созданию ad-hoc-датафреймов в PySpark

#БлогкомпанииVK #Облачныевычисления #Apache #DataEngineering #vkcloud #Spark #PySpark IV

https://habr.com/ru/companies/vk/articles/760796/

Хабр

Пять подходов к созданию ad-hoc-датафреймов в PySpark

Дата-инженеры, работающие с PySpark, часто сталкиваются с задачей создать логику обработки данных. Обычно речь идет о тестировании набора классов и функций. Современные платформы данных на основе...

34 views08:15

Habr.com

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV

https://habr.com/ru/companies/avito/articles/764996/

Хабр

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Привет! Меня зовут Александр Ледовский, я тимлид команды аналитики и DS в Авито. Нередко я вижу ситуацию, когда аналитик работает над задачей и упирается в проблему производительности. Причём она...

36 views13:15

Habr.com

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

#БлогкомпанииАльфаБанк #Apache #BigData #DevOps #DataEngineering #spark #configs IV

https://habr.com/ru/companies/alfa/articles/772224/

Хабр

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь...

41 views12:00

Habr.com

[Перевод] Дежурный data-инженер: рабочие хроники

#БлогкомпанииVK #BigData #Хранилищаданных #vkcloud #датаинжиниринг #spark IV

https://habr.com/ru/companies/vk/articles/772468/

Хабр

Дежурный data-инженер: рабочие хроники

Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в...

39 views09:00

Habr.com

Spark не для чайников: где?

#BigData #УчебныйпроцессвIT #КарьеравITиндустрии #DataEngineering #spark #seniorengineer #education IV

https://habr.com/ru/articles/784848/

Хабр

Spark не для чайников: где?

Обложка известной серии книг. Disclaimer : В статье речь идет о личном мнении, которое может не совпадать с позицией компании, где трудоустроен автор :) Apache Spark уже давно перестал быть просто...

25 views09:30

Habr.com

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

#БлогкомпанииVK #BigData #Kubernetes #Машинноеобучение #vkcloud #spark #kubernetes IV

https://habr.com/ru/companies/vk/articles/776722/

Хабр

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

Сегодня Spark — отраслевой стандарт среди инструментов обработки данных. Его часто используют в связке с Hadoop, однако Hadoop не очень подходит для работы в облаке. Альтернативой может быть...

41 views11:30

Habr.com

3 способа запуска Spark в Kubernetes из Airflow

#BigData #Kubernetes #DataEngineering #spark #airflow #оркестрация

https://habr.com/ru/articles/805143/

Хабр

3 способа запуска Spark в Kubernetes из Airflow

Приветствую, после того, как я научился запускать spark-submit с мастером в Kubernetes и даже получил ожидаемый результат, пришло время ставить мою задачу на расписание в Airflow. И тут встал вопрос,...

42 views05:45

Habr.com

Оптимизируем параметры запуска приложения Spark. Часть первая

#Блогкомпаниибилайн #BigData #Хранилищаданных #DataEngineering #spark #параметризация #оптимизация

https://habr.com/ru/companies/beeline_tech/articles/804513/

Хабр

Оптимизируем параметры запуска приложения Spark. Часть первая

Привет! Меня зовут Андрей Чучалов, я работаю в билайне, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск...

37 views21:30

Habr.com

SPARK для «малышей»

#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop

https://habr.com/ru/companies/alfa/articles/808415/

Хабр

SPARK для «малышей»

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»). В прошлой статье мы рассмотрели пример создания Spark-сессий , здесь поговорим о возможностях и функция...

37 views15:00

Habr.com

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark

https://habr.com/ru/companies/lamoda/articles/810705/

Хабр

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...

38 views08:45

Habr.com

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering

https://habr.com/ru/articles/816997/

Хабр

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1) , которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример,...

39 views15:30

About

Blog

Apps

Platform