[Перевод] Стайлгайд PySpark: как сделать код элегантным
#БлогкомпанииVK #Apache #DevOps #Kubernetes #Облачныевычисления #vkcloud #Spark IV
https://habr.com/ru/companies/vk/articles/759310/
#БлогкомпанииVK #Apache #DevOps #Kubernetes #Облачныевычисления #vkcloud #Spark IV
https://habr.com/ru/companies/vk/articles/759310/
Хабр
Стайлгайд PySpark: как сделать код элегантным
Команда VK Cloud перевела статью о правилах оформления кода в PySpark. Они не обязательны для исполнения, но помогут сделать ваш код более читабельным и удобным для последующих проверок и изменений....
[Перевод] Стайлгайд PySpark: как сделать код элегантным
#БлогкомпанииVK #Python #Облачныевычисления #Apache #DevOps #vkcloud #Spark IV
https://habr.com/ru/companies/vk/articles/760416/
#БлогкомпанииVK #Python #Облачныевычисления #Apache #DevOps #vkcloud #Spark IV
https://habr.com/ru/companies/vk/articles/760416/
Хабр
Стайлгайд PySpark: как сделать код элегантным
Команда VK Cloud перевела статью о правилах оформления кода в PySpark. Они не обязательны для исполнения, но помогут сделать ваш код более читабельным и удобным для последующих проверок и изменений....
[Перевод] Пять подходов к созданию ad-hoc-датафреймов в PySpark
#БлогкомпанииVK #Облачныевычисления #Apache #DataEngineering #vkcloud #Spark #PySpark IV
https://habr.com/ru/companies/vk/articles/760796/
#БлогкомпанииVK #Облачныевычисления #Apache #DataEngineering #vkcloud #Spark #PySpark IV
https://habr.com/ru/companies/vk/articles/760796/
Хабр
Пять подходов к созданию ad-hoc-датафреймов в PySpark
Дата-инженеры, работающие с PySpark, часто сталкиваются с задачей создать логику обработки данных. Обычно речь идет о тестировании набора классов и функций. Современные платформы данных на основе...
Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI
#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV
https://habr.com/ru/companies/avito/articles/764996/
#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV
https://habr.com/ru/companies/avito/articles/764996/
Хабр
Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI
Привет! Меня зовут Александр Ледовский, я тимлид команды аналитики и DS в Авито. Нередко я вижу ситуацию, когда аналитик работает над задачей и упирается в проблему производительности. Причём она...
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
#БлогкомпанииАльфаБанк #Apache #BigData #DevOps #DataEngineering #spark #configs IV
https://habr.com/ru/companies/alfa/articles/772224/
#БлогкомпанииАльфаБанк #Apache #BigData #DevOps #DataEngineering #spark #configs IV
https://habr.com/ru/companies/alfa/articles/772224/
Хабр
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь...
[Перевод] Дежурный data-инженер: рабочие хроники
#БлогкомпанииVK #BigData #Хранилищаданных #vkcloud #датаинжиниринг #spark IV
https://habr.com/ru/companies/vk/articles/772468/
#БлогкомпанииVK #BigData #Хранилищаданных #vkcloud #датаинжиниринг #spark IV
https://habr.com/ru/companies/vk/articles/772468/
Хабр
Дежурный data-инженер: рабочие хроники
Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в...
Spark не для чайников: где?
#BigData #УчебныйпроцессвIT #КарьеравITиндустрии #DataEngineering #spark #seniorengineer #education IV
https://habr.com/ru/articles/784848/
#BigData #УчебныйпроцессвIT #КарьеравITиндустрии #DataEngineering #spark #seniorengineer #education IV
https://habr.com/ru/articles/784848/
Хабр
Spark не для чайников: где?
Обложка известной серии книг. Disclaimer : В статье речь идет о личном мнении, которое может не совпадать с позицией компании, где трудоустроен автор :) Apache Spark уже давно перестал быть просто...
Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud
#БлогкомпанииVK #BigData #Kubernetes #Машинноеобучение #vkcloud #spark #kubernetes IV
https://habr.com/ru/companies/vk/articles/776722/
#БлогкомпанииVK #BigData #Kubernetes #Машинноеобучение #vkcloud #spark #kubernetes IV
https://habr.com/ru/companies/vk/articles/776722/
Хабр
Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud
Сегодня Spark — отраслевой стандарт среди инструментов обработки данных. Его часто используют в связке с Hadoop, однако Hadoop не очень подходит для работы в облаке. Альтернативой может быть...
3 способа запуска Spark в Kubernetes из Airflow
#BigData #Kubernetes #DataEngineering #spark #airflow #оркестрация
https://habr.com/ru/articles/805143/
#BigData #Kubernetes #DataEngineering #spark #airflow #оркестрация
https://habr.com/ru/articles/805143/
Хабр
3 способа запуска Spark в Kubernetes из Airflow
Приветствую, после того, как я научился запускать spark-submit с мастером в Kubernetes и даже получил ожидаемый результат, пришло время ставить мою задачу на расписание в Airflow. И тут встал вопрос,...
Оптимизируем параметры запуска приложения Spark. Часть первая
#Блогкомпаниибилайн #BigData #Хранилищаданных #DataEngineering #spark #параметризация #оптимизация
https://habr.com/ru/companies/beeline_tech/articles/804513/
#Блогкомпаниибилайн #BigData #Хранилищаданных #DataEngineering #spark #параметризация #оптимизация
https://habr.com/ru/companies/beeline_tech/articles/804513/
Хабр
Оптимизируем параметры запуска приложения Spark. Часть первая
Привет! Меня зовут Андрей Чучалов, я работаю в билайне, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск...
SPARK для «малышей»
#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop
https://habr.com/ru/companies/alfa/articles/808415/
#БлогкомпанииАльфаБанк #Hadoop #DataEngineering #spark #python #hive #hadoop
https://habr.com/ru/companies/alfa/articles/808415/
Хабр
SPARK для «малышей»
Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»). В прошлой статье мы рассмотрели пример создания Spark-сессий , здесь поговорим о возможностях и функция...
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark
https://habr.com/ru/companies/lamoda/articles/810705/
#БлогкомпанииLamodaTech #Python #BigData #Hadoop #DataEngineering #apacheairflow #spark
https://habr.com/ru/companies/lamoda/articles/810705/
Хабр
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...
[Туториал] Пишем собственные Spark Native Functions (Часть 2)
#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering
https://habr.com/ru/articles/816997/
#Scala #BigData #Hadoop #DataEngineering #spark #scala #dataengineering
https://habr.com/ru/articles/816997/
Хабр
[Туториал] Пишем собственные Spark Native Functions (Часть 2)
В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1) , которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример,...
«Школьный» курс по Apache Spark: оптимизация
#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache
https://habr.com/ru/companies/alfa/articles/829622/
#БлогкомпанииАльфаБанк #BigData #Hadoop #DataEngineering #spark #руководство #apache
https://habr.com/ru/companies/alfa/articles/829622/
Хабр
Руководство по Apache Spark не для начинающих: оптимизация
В прошлой статье SPARK для «малышей» я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о...
Оптимизируем Shuffle в Spark
#БлогкомпанииX5Tech #BigData #ITкомпании #DataEngineering #spark #планзапроса #dataanalysis
https://habr.com/ru/companies/X5Tech/articles/837348/
#БлогкомпанииX5Tech #BigData #ITкомпании #DataEngineering #spark #планзапроса #dataanalysis
https://habr.com/ru/companies/X5Tech/articles/837348/
Хабр
Оптимизируем Shuffle в Spark
Привет, Хабр! Меня зовут Сергей Смирнов, я аналитик в продукте CVM в X5 Tech. Я занимаюсь разработкой инструмента анализа A/B экспериментов. Мы ежедневно считаем десятки метрик для сотен экспериментов...
[Перевод] Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt
#БлогкомпанииOTUS #Программирование #Scala #BigData #scala #разработканаscala #spark
https://habr.com/ru/companies/otus/articles/840362/
#БлогкомпанииOTUS #Программирование #Scala #BigData #scala #разработканаscala #spark
https://habr.com/ru/companies/otus/articles/840362/
Хабр
Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt
Введение В этой статье представлено подробное руководство по инициализации проекта Spark с помощью Scala Build Tool (SBT). Это руководство охватывает все этапы процесса, включая создание...
Современная Lakehouse-платформа данных Data Ocean Nova
#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala
https://habr.com/ru/articles/847770/
#bigdata #dwh #hadoop #lakehouse #streaming #spark #impala
https://habr.com/ru/articles/847770/
Хабр
Современная Lakehouse-платформа данных Data Ocean Nova
Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на...
Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло
#iceberg #apache #apachespark #spark #dataengineering
https://habr.com/ru/companies/cian/articles/859484/
#iceberg #apache #apachespark #spark #dataengineering
https://habr.com/ru/companies/cian/articles/859484/
Apache Flink: Flink Table API & SQL
#flink #kafka #хранениеданных #CSV #spark
https://habr.com/ru/companies/beeline_tech/articles/863588/
#flink #kafka #хранениеданных #CSV #spark
https://habr.com/ru/companies/beeline_tech/articles/863588/
Машинное обучение на Spark
#vkcloud #большиеданные #ML #spark
https://habr.com/ru/companies/vk/articles/868114/
#vkcloud #большиеданные #ML #spark
https://habr.com/ru/companies/vk/articles/868114/
Хабр
Машинное обучение на Spark
Существует множество подходов к машинному обучению. Со стороны может показаться, что генеративные модели на архитектуре под названием «трансформер» заняли передовые позиции и ближайшее обозримое...