Habr.com

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

#БлогкомпанииVK #BigData #Kubernetes #Машинноеобучение #vkcloud #spark #kubernetes IV

https://habr.com/ru/companies/vk/articles/776722/

Хабр

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

Сегодня Spark — отраслевой стандарт среди инструментов обработки данных. Его часто используют в связке с Hadoop, однако Hadoop не очень подходит для работы в облаке. Альтернативой может быть...

41 views11:30

Habr.com

3 способа запуска Spark в Kubernetes из Airflow

#BigData #Kubernetes #DataEngineering #spark #airflow #оркестрация

https://habr.com/ru/articles/805143/

Хабр

3 способа запуска Spark в Kubernetes из Airflow

Приветствую, после того, как я научился запускать spark-submit с мастером в Kubernetes и даже получил ожидаемый результат, пришло время ставить мою задачу на расписание в Airflow. И тут встал вопрос,...

42 views05:45

Habr.com

Оптимизируем параметры запуска приложения Spark. Часть первая

#Блогкомпаниибилайн #BigData #Хранилищаданных #DataEngineering #spark #параметризация #оптимизация

https://habr.com/ru/companies/beeline_tech/articles/804513/

Хабр

Оптимизируем параметры запуска приложения Spark. Часть первая

Привет! Меня зовут Андрей Чучалов, я работаю в билайне, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск...

37 views21:30

Habr.com

SPARK для «малышей»

#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop

https://habr.com/ru/companies/alfa/articles/808415/

Хабр

SPARK для «малышей»

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»). В прошлой статье мы рассмотрели пример создания Spark-сессий , здесь поговорим о возможностях и функция...

37 views15:00

Habr.com

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark

https://habr.com/ru/companies/lamoda/articles/810705/

Хабр

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...

38 views08:45

Habr.com

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering

https://habr.com/ru/articles/816997/

Хабр

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1) , которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример,...

39 views15:30

Habr.com

«Школьный» курс по Apache Spark: оптимизация

#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache

https://habr.com/ru/companies/alfa/articles/829622/

Хабр

Руководство по Apache Spark не для начинающих: оптимизация

В прошлой статье SPARK для «малышей» я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о...

43 views17:00

Habr.com

Оптимизируем Shuffle в Spark

#БлогкомпанииX5Tech #BigData #ITкомпании #DataEngineering #spark #планзапроса #dataanalysis

https://habr.com/ru/companies/X5Tech/articles/837348/

Хабр

Оптимизируем Shuffle в Spark

Привет, Хабр! Меня зовут Сергей Смирнов, я аналитик в продукте CVM в X5 Tech. Я занимаюсь разработкой инструмента анализа A/B экспериментов. Мы ежедневно считаем десятки метрик для сотен экспериментов...

36 views17:00

Habr.com

[Перевод] Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt

#БлогкомпанииOTUS #Программирование #Scala #BigData #scala #разработканаscala #spark

https://habr.com/ru/companies/otus/articles/840362/

Хабр

Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt

Введение В этой статье представлено подробное руководство по инициализации проекта Spark с помощью Scala Build Tool (SBT). Это руководство охватывает все этапы процесса, включая создание...

40 views10:30

Habr.com

Современная Lakehouse-платформа данных Data Ocean Nova

#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala

https://habr.com/ru/articles/847770/

Хабр

Современная Lakehouse-платформа данных Data Ocean Nova

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на...

39 views20:30

Habr.com

Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

#iceberg #apache #apachespark #spark #dataengineering

https://habr.com/ru/companies/cian/articles/859484/

43 views12:00

Habr.com

Apache Flink: Flink Table API & SQL

#flink #kafka #хранениеданных #CSV #spark

https://habr.com/ru/companies/beeline_tech/articles/863588/

56 views21:15

Habr.com

Машинное обучение на Spark

#vkcloud #большиеданные #ML #spark

https://habr.com/ru/companies/vk/articles/868114/

Хабр

Машинное обучение на Spark

Существует множество подходов к машинному обучению. Со стороны может показаться, что генеративные модели на архитектуре под названием «трансформер» заняли передовые позиции и ближайшее обозримое...

49 views10:00

About

Blog

Apps

Platform