Linux | OpenSource | Tech
5 subscribers
1.47K links
Download Telegram
Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark

📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.

🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.

Ключевые моменты:
- Использование необычного режима master=local в Apache Spark.
- Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.

🔗 Читать подробнее на Habr

#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions
🔥 Вышла Apache Spark 4.0! Главные нововведения

Компания Apache представила долгожданную Spark 4.0 — новую версию фреймворка для распределённой обработки больших данных.

📌 Что изменилось?
Основные улучшения затронули Spark SQL и PySpark, но среди ключевых нововведений:
- Ускоренная обработка сложных запросов
- Оптимизация работы с DataFrame
- Новые API для удобства разработчиков

Подробный разбор — в статье на Habr 👇

Читать полностью →

#BigData #ApacheSpark #Технологии