Linux | OpenSource | Tech
5 subscribers
1.47K links
Download Telegram
Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark

📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.

🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.

Ключевые моменты:
- Использование необычного режима master=local в Apache Spark.
- Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.

🔗 Читать подробнее на Habr

#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions