[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB
#БлогкомпанииFirstVDS #Системноеадминистрирование #Apache #FirstVDS #FirstDEDIC #ApacheSpark #MongoDB IV
https://habr.com/ru/post/671104/
#БлогкомпанииFirstVDS #Системноеадминистрирование #Apache #FirstVDS #FirstDEDIC #ApacheSpark #MongoDB IV
https://habr.com/ru/post/671104/
Хабр
Потоковая передача данных с помощью Apache Spark и MongoDB
MongoDB объявила о выпуске 10.0 версии коннектора MongoDB для Apache Spark . В этой версии используется новый API Spark Data Sources второй версии (V2) с поддержкой структурированной потоковой...
Машинное обучение с Apache Cassandra и Apache Spark
#БлогкомпанииOTUS #NoSQL #Apache #Машинноеобучение #apachespark #apachecassandra IV
https://habr.com/ru/post/692800/
#БлогкомпанииOTUS #NoSQL #Apache #Машинноеобучение #apachespark #apachecassandra IV
https://habr.com/ru/post/692800/
Хабр
Машинное обучение с Apache Cassandra и Apache Spark
В первой статье из серии об использовании Apache Cassandra в машинном обучении мы обсудили цели и задачи машинного обучения, и поговорили почему Cassandra — превосходный инструмент для обработки...
[Перевод] Обзор End-to-End Exactly-Once семантики в Apache Flink (с Apache Kafka!)
#БлогкомпанииOTUS #Apache #apache #apacheflink #apachespark #EndtoEnd #ExactlyOnce IV
https://habr.com/ru/post/699814/
#БлогкомпанииOTUS #Apache #apache #apacheflink #apachespark #EndtoEnd #ExactlyOnce IV
https://habr.com/ru/post/699814/
Хабр
Обзор End-to-End Exactly-Once семантики в Apache Flink (с Apache Kafka!)
Эта статья — адаптация презентации Петра Новойски (Piotr Nowojski) на Flink Forward Berlin 2017 . Запись презентации и слайды можно найти на сайте Flink Forward Berlin. Релиз Apache Flink 1.4.0 в...
PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать
#БлогкомпанииAvitoTech #Python #BigData #apachespark #аналитикаданных #spark #hadoop IV
https://habr.com/ru/companies/avito/articles/732870/
#БлогкомпанииAvitoTech #Python #BigData #apachespark #аналитикаданных #spark #hadoop IV
https://habr.com/ru/companies/avito/articles/732870/
Хабр
PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать
Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, мы строим рекламные аукционы в Авито. Для работы с поисковыми логами мы пользуемся Apache Spark. Я расскажу о моём опыте...
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив
#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV
https://habr.com/ru/companies/avito/articles/740232/
#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV
https://habr.com/ru/companies/avito/articles/740232/
Хабр
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив
Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, строю рекламные аукционы в Авито. В работе мы активно используем Apache Spark. Одна из типовых задач аналитика — посчитать...
Обработка больших и очень больших графов
#Алгоритмы #Распределённыесистемы #граф #apachespark #распределённыевычисления IV
https://habr.com/ru/articles/753904/
#Алгоритмы #Распределённыесистемы #граф #apachespark #распределённыевычисления IV
https://habr.com/ru/articles/753904/
Хабр
Обработка больших и очень больших графов
TLDR Статья является вводной из цикла статей, посвященных обработке больших и очень больших графов. Приведен обзор основных фреймворков для обработки графов: Pregel , GraphLab и PowerGraph ....
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса
#БлогкомпанииITSumma #BigData #DataEngineering #Opensource #bigdata #apachekafka #apachespark IV
https://habr.com/ru/companies/itsumma/articles/758996/
#БлогкомпанииITSumma #BigData #DataEngineering #Opensource #bigdata #apachekafka #apachespark IV
https://habr.com/ru/companies/itsumma/articles/758996/
Хабр
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса
Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани , инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV
https://habr.com/ru/articles/760504/
#Opensource #Java #BigData #Hadoop #DataEngineering #etl #apachespark IV
https://habr.com/ru/articles/760504/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/760778/
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/760778/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]
В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/761328/
#Opensource #Программирование #Java #BigData #Hadoop #etl #apachespark IV
https://habr.com/ru/articles/761328/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]
В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи...
Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI
#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV
https://habr.com/ru/companies/avito/articles/764996/
#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV
https://habr.com/ru/companies/avito/articles/764996/
Хабр
Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI
Привет! Меня зовут Александр Ледовский, я тимлид команды аналитики и DS в Авито. Нередко я вижу ситуацию, когда аналитик работает над задачей и упирается в проблему производительности. Причём она...
YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее
#БлогкомпанииКонференцииОлегаБунинаОнтико #БлогкомпанииYandexCloudYandexInfrastructure #BigData #DataEngineering #apachespark #ytsaurus #распределенныесистемы IV
https://habr.com/ru/companies/oleg-bunin/articles/768284/
#БлогкомпанииКонференцииОлегаБунинаОнтико #БлогкомпанииYandexCloudYandexInfrastructure #BigData #DataEngineering #apachespark #ytsaurus #распределенныесистемы IV
https://habr.com/ru/companies/oleg-bunin/articles/768284/
Хабр
YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее
В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении...
[Перевод] Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle
#БлогкомпанииOTUS #Apache #DataEngineering #apachespark #Spark340 #shuffle #SparkConnect IV
https://habr.com/ru/companies/otus/articles/780358/
#БлогкомпанииOTUS #Apache #DataEngineering #apachespark #Spark340 #shuffle #SparkConnect IV
https://habr.com/ru/companies/otus/articles/780358/
Хабр
Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle
Spark Connect Spark Connect — это, пожалуй, самая ожидаемая фича Apache Spark 3.4.0. Она была анонсирована на конференции Data+AI Summit 2022 и сейчас широко освещается в социальных сетях. Вот и я...
Spark. План запросов на примерах
#SQL #Apache #BigData #Хранениеданных #DataEngineering #apachespark #pyspark
https://habr.com/ru/articles/807421/
#SQL #Apache #BigData #Хранениеданных #DataEngineering #apachespark #pyspark
https://habr.com/ru/articles/807421/
Хабр
Spark. План запросов на примерах
Всем привет! В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды...
Разбираемся с Apache Spark
#БлогкомпанииOTUS #Хранениеданных #apachespark #python #rdd #обработкаданных
https://habr.com/ru/companies/otus/articles/808141/
#БлогкомпанииOTUS #Хранениеданных #apachespark #python #rdd #обработкаданных
https://habr.com/ru/companies/otus/articles/808141/
Хабр
Разбираемся с Apache Spark
В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие...
Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]
#Opensource #Программирование #Java #SQL #BigData #etl #apachespark
https://habr.com/ru/articles/808483/
#Opensource #Программирование #Java #SQL #BigData #etl #apachespark
https://habr.com/ru/articles/808483/
Хабр
Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]
В предыдущих сериях ( FAQ • 1 • 2 • 3 • 4 • 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный...
Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma
#БлогкомпанииITSumma #BigData #DataEngineering #bigdata #dataops #dataengineering #apachespark
https://habr.com/ru/companies/itsumma/articles/821377/
#БлогкомпанииITSumma #BigData #DataEngineering #bigdata #dataops #dataengineering #apachespark
https://habr.com/ru/companies/itsumma/articles/821377/
Хабр
Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma
В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной...
Стриминговые фреймворки: Apache Flink
#apacheflink #apachespark #потоковаяобработкаданных
https://habr.com/ru/articles/840300/
#apacheflink #apachespark #потоковаяобработкаданных
https://habr.com/ru/articles/840300/
Хабр
Стриминговые фреймворки: Apache Flink
Требования к современным системам в части скорости обработки информации растут. Пользователи уже не хотят ждать загрузки поста в социальной сети или фильма в онлайн-кинотеатре дольше нескольких...
Apache Spark: настройка и отладка
#apachespark #python
https://habr.com/ru/companies/otus/articles/851674/
#apachespark #python
https://habr.com/ru/companies/otus/articles/851674/
Хабр
Apache Spark: настройка и отладка
Большинство современных приложений содержат в себе набор настроек по умолчанию, позволяющий обеспечить достаточно эффективную работу разворачиваемого приложения что называется «из...
Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло
#iceberg #apache #apachespark #spark #dataengineering
https://habr.com/ru/companies/cian/articles/859484/
#iceberg #apache #apachespark #spark #dataengineering
https://habr.com/ru/companies/cian/articles/859484/