Habr.com

[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB

#БлогкомпанииFirstVDS #Системноеадминистрирование #Apache #FirstVDS #FirstDEDIC #ApacheSpark #MongoDB IV

https://habr.com/ru/post/671104/

Хабр

Потоковая передача данных с помощью Apache Spark и MongoDB

MongoDB объявила о выпуске 10.0 версии коннектора MongoDB для Apache Spark . В этой версии используется новый API Spark Data Sources второй версии (V2) с поддержкой структурированной потоковой...

39 views08:15

Habr.com

Машинное обучение с Apache Cassandra и Apache Spark

#БлогкомпанииOTUS #NoSQL #Apache #Машинноеобучение #apachespark #apachecassandra IV

https://habr.com/ru/post/692800/

Хабр

Машинное обучение с Apache Cassandra и Apache Spark

В первой статье из серии об использовании Apache Cassandra в машинном обучении мы обсудили цели и задачи машинного обучения, и поговорили почему Cassandra — превосходный инструмент для обработки...

32 views18:45

Habr.com

[Перевод] Обзор End-to-End Exactly-Once семантики в Apache Flink (с Apache Kafka!)

#БлогкомпанииOTUS #Apache #apache #apacheflink #apachespark #EndtoEnd #ExactlyOnce IV

https://habr.com/ru/post/699814/

Хабр

Обзор End-to-End Exactly-Once семантики в Apache Flink (с Apache Kafka!)

Эта статья — адаптация презентации Петра Новойски (Piotr Nowojski) на Flink Forward Berlin 2017 . Запись презентации и слайды можно найти на сайте Flink Forward Berlin. Релиз Apache Flink 1.4.0 в...

28 views12:30

Habr.com

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

#БлогкомпанииAvitoTech #Python #BigData #apachespark #аналитикаданных #spark #hadoop IV

https://habr.com/ru/companies/avito/articles/732870/

Хабр

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, мы строим рекламные аукционы в Авито. Для работы с поисковыми логами мы пользуемся Apache Spark. Я расскажу о моём опыте...

47 views22:00

Habr.com

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV

https://habr.com/ru/companies/avito/articles/740232/

Хабр

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, строю рекламные аукционы в Авито. В работе мы активно используем Apache Spark. Одна из типовых задач аналитика — посчитать...

37 views07:45

Habr.com

Обработка больших и очень больших графов

#Алгоритмы #Распределённыесистемы #граф #apachespark #распределённыевычисления IV

https://habr.com/ru/articles/753904/

Хабр

Обработка больших и очень больших графов

TLDR Статья является вводной из цикла статей, посвященных обработке больших и очень больших графов. Приведен обзор основных фреймворков для обработки графов: Pregel , GraphLab и PowerGraph ....

36 views06:45

Habr.com

Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

#БлогкомпанииITSumma #BigData #DataEngineering #Opensource #bigdata #apachekafka #apachespark IV

https://habr.com/ru/companies/itsumma/articles/758996/

Хабр

Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани , инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе...

33 views10:15

Habr.com

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV

https://habr.com/ru/articles/760504/

Хабр

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...

38 views17:45

Habr.com

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV

https://habr.com/ru/articles/760778/

Хабр

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

38 views20:45

Habr.com

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV

https://habr.com/ru/articles/761328/

Хабр

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи...

41 views17:30

Habr.com

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV

https://habr.com/ru/companies/avito/articles/764996/

Хабр

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Привет! Меня зовут Александр Ледовский, я тимлид команды аналитики и DS в Авито. Нередко я вижу ситуацию, когда аналитик работает над задачей и упирается в проблему производительности. Причём она...

36 views13:15

Habr.com

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

#БлогкомпанииКонференцииОлегаБунинаОнтико #БлогкомпанииYandexCloudYandexInfrastructure #BigData #DataEngineering #apachespark #ytsaurus #распределенныесистемы IV

https://habr.com/ru/companies/oleg-bunin/articles/768284/

Хабр

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении...

41 views12:15

Habr.com

[Перевод] Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle

#БлогкомпанииOTUS #Apache #DataEngineering #apachespark #Spark340 #shuffle #SparkConnect IV

https://habr.com/ru/companies/otus/articles/780358/

Хабр

Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle

Spark Connect Spark Connect — это, пожалуй, самая ожидаемая фича Apache Spark 3.4.0. Она была анонсирована на конференции Data+AI Summit 2022 и сейчас широко освещается в социальных сетях. Вот и я...

35 views21:15

Habr.com

Spark. План запросов на примерах

#SQL #Apache #BigData #Хранениеданных #DataEngineering #apachespark #pyspark

https://habr.com/ru/articles/807421/

Хабр

Spark. План запросов на примерах

Всем привет! В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды...

31 views00:45

Habr.com

Разбираемся с Apache Spark

#БлогкомпанииOTUS #Хранениеданных #apachespark #python #rdd #обработкаданных

https://habr.com/ru/companies/otus/articles/808141/

Хабр

Разбираемся с Apache Spark

В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие...

36 views10:45

Habr.com

Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]

#Opensource #Программирование #Java #SQL #BigData #etl #apachespark

https://habr.com/ru/articles/808483/

Хабр

Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]

В предыдущих сериях ( FAQ • 1 • 2 • 3 • 4 • 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный...

36 views13:30

Habr.com

Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma

#БлогкомпанииITSumma #BigData #DataEngineering #bigdata #dataops #dataengineering #apachespark

https://habr.com/ru/companies/itsumma/articles/821377/

Хабр

Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma

В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной...

40 views07:15

Habr.com

Стриминговые фреймворки: Apache Flink

#apacheflink #apachespark #потоковаяобработкаданных

https://habr.com/ru/articles/840300/

Хабр

Стриминговые фреймворки: Apache Flink

Требования к современным системам в части скорости обработки информации растут. Пользователи уже не хотят ждать загрузки поста в социальной сети или фильма в онлайн-кинотеатре дольше нескольких...

47 views18:30

Habr.com

Apache Spark: настройка и отладка

#apachespark #python

https://habr.com/ru/companies/otus/articles/851674/

Хабр

Apache Spark: настройка и отладка

Большинство современных приложений содержат в себе набор настроек по умолчанию, позволяющий обеспечить достаточно эффективную работу разворачиваемого приложения что называется «из...

45 views18:15

Habr.com

Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

#iceberg #apache #apachespark #spark #dataengineering

https://habr.com/ru/companies/cian/articles/859484/

43 views12:00

About

Blog

Apps

Platform