Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark
📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.
🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.
✨ Ключевые моменты:
- Использование необычного режима
- Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.
🔗 Читать подробнее на Habr
#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions
📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.
🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.
✨ Ключевые моменты:
- Использование необычного режима
master=local в Apache Spark. - Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.
🔗 Читать подробнее на Habr
#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions