Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark
📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.
🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.
✨ Ключевые моменты:
- Использование необычного режима
- Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.
🔗 Читать подробнее на Habr
#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions
📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.
🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.
✨ Ключевые моменты:
- Использование необычного режима
master=local в Apache Spark. - Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.
🔗 Читать подробнее на Habr
#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions
🔧 Apache Airflow на практике: гид по оркестрации ETL-процессов
Apache Airflow уже стал must-have инструментом для инженеров данных. В статье разбираем:
✅ За что его любят в Data Engineering
✅ Как внедрить в аналитическую инфраструктуру
✅ Пошаговый гайд по развертыванию
Читайте и внедряйте → habr.com
#DataEngineering #ETL #ApacheAirflow #BigData
Apache Airflow уже стал must-have инструментом для инженеров данных. В статье разбираем:
✅ За что его любят в Data Engineering
✅ Как внедрить в аналитическую инфраструктуру
✅ Пошаговый гайд по развертыванию
Читайте и внедряйте → habr.com
#DataEngineering #ETL #ApacheAirflow #BigData
🚀 Обновление стриминг-фреймворка в Одноклассниках: путь через легаси
<img src="https://habrastorage.org/getpro/habr/uploadfiles/742/c15/eef/742c15eefe5c03585ec6d38cff1828a0.jpg" />
Команда разработки **One-сloud** в **VK** поделилась историей модернизации стримингового фреймворка в "Одноклассниках".
🔹 **В чём сложность?**
Стриминговые данные используются в ОК уже более 10 лет. За это время технологии ушли вперёд, а старое легаси начало тормозить развитие.
🔹 **Как обновляли?**
Разработчики столкнулись с рядом вызовов — от несовместимости API до тонкостей работы с Kafka.
🔹 **Что в итоге?**
Платформа стала быстрее, стабильнее и готовой к масштабированию.
📌 Подробности — в материале **Алины Шестаковой**, разработчицы **DataPlatform** VK:
👉 [**Читать на Habr**](https://habr.com/ru/companies/vk/articles/924650/?utmcampaign=924650&utmsource=habrahabr&utmmedium=rss)
#VK #Одноклассники #DataEngineering #Стриминг
<img src="https://habrastorage.org/getpro/habr/uploadfiles/742/c15/eef/742c15eefe5c03585ec6d38cff1828a0.jpg" />
Команда разработки **One-сloud** в **VK** поделилась историей модернизации стримингового фреймворка в "Одноклассниках".
🔹 **В чём сложность?**
Стриминговые данные используются в ОК уже более 10 лет. За это время технологии ушли вперёд, а старое легаси начало тормозить развитие.
🔹 **Как обновляли?**
Разработчики столкнулись с рядом вызовов — от несовместимости API до тонкостей работы с Kafka.
🔹 **Что в итоге?**
Платформа стала быстрее, стабильнее и готовой к масштабированию.
📌 Подробности — в материале **Алины Шестаковой**, разработчицы **DataPlatform** VK:
👉 [**Читать на Habr**](https://habr.com/ru/companies/vk/articles/924650/?utmcampaign=924650&utmsource=habrahabr&utmmedium=rss)
#VK #Одноклассники #DataEngineering #Стриминг
🚀 Миграция DWH: опыт и сложности переезда в новое облако
🔹 Автор: Владимир, дата-инженер Flocktory
🔹 Задача: Переезд в новое облако с переносом ~1 ПБ данных, внедрением новых инструментов и параллельным созданием фиче-стора и управленческой отчетности.
📌 О чем рассказ:
- Как команда справилась с масштабной миграцией
- Какие сложности возникли
- Что удалось построить в процессе
👉 Читать подробнее: Habr
#DataEngineering #DWH #Миграция #Облака
🔹 Автор: Владимир, дата-инженер Flocktory
🔹 Задача: Переезд в новое облако с переносом ~1 ПБ данных, внедрением новых инструментов и параллельным созданием фиче-стора и управленческой отчетности.
📌 О чем рассказ:
- Как команда справилась с масштабной миграцией
- Какие сложности возникли
- Что удалось построить в процессе
👉 Читать подробнее: Habr
#DataEngineering #DWH #Миграция #Облака
🚀 Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto
В криптомире анонимность и безопасность — ключевые приоритеты. Особенно это важно для крипто-свапалок, где скорость и надежность обработки данных напрямую влияют на качество сервиса.
🔧 Что внутри:
- Разбор архитектуры real-time пайплайнов для risetocrypto
- Какие технологии использовали для масштабируемости и безопасности
- Практические решения для анонимных транзакций
📌 Полный разбор — в статье на Хабре 👉 Читать далее
#Крипта #Blockchain #DataEngineering #DeFi
В криптомире анонимность и безопасность — ключевые приоритеты. Особенно это важно для крипто-свапалок, где скорость и надежность обработки данных напрямую влияют на качество сервиса.
🔧 Что внутри:
- Разбор архитектуры real-time пайплайнов для risetocrypto
- Какие технологии использовали для масштабируемости и безопасности
- Практические решения для анонимных транзакций
📌 Полный разбор — в статье на Хабре 👉 Читать далее
#Крипта #Blockchain #DataEngineering #DeFi
Основы ETL: обработка данных с Superset, Airflow и ClickHouse
<img src="https://habrastorage.org/getpro/habr/uploadfiles/1a1/e7d/b9b/1a1e7db9b385c53f3ec050aec1fe87b5.jpg" />
Кратко о том, как запустить простой ETL-процесс с помощью связки Superset, Airflow и ClickHouse. В статье — пример выгрузки и визуализации данных о товарах Wildberries.
**Что используется:**
🔹 **Superset + Airflow** — готовый набор от Beget для удобной работы с данными
🔹 **ClickHouse** — для хранения и обработки информации
🔹 **Selenium, BeautifulSoup, re** — парсинг и обработка данных
👉 [Подробнее в статье](https://habr.com/ru/companies/beget/articles/928712/?utmcampaign=928712&utmsource=habrahabr&utmmedium=rss)
#ETL #DataEngineering #Superset #Airflow #ClickHouse
<img src="https://habrastorage.org/getpro/habr/uploadfiles/1a1/e7d/b9b/1a1e7db9b385c53f3ec050aec1fe87b5.jpg" />
Кратко о том, как запустить простой ETL-процесс с помощью связки Superset, Airflow и ClickHouse. В статье — пример выгрузки и визуализации данных о товарах Wildberries.
**Что используется:**
🔹 **Superset + Airflow** — готовый набор от Beget для удобной работы с данными
🔹 **ClickHouse** — для хранения и обработки информации
🔹 **Selenium, BeautifulSoup, re** — парсинг и обработка данных
👉 [Подробнее в статье](https://habr.com/ru/companies/beget/articles/928712/?utmcampaign=928712&utmsource=habrahabr&utmmedium=rss)
#ETL #DataEngineering #Superset #Airflow #ClickHouse
🚀 Apache Flink 2.0: революция в real-time вычислениях
Команда BitDive тестирует новую версию фреймворка для обработки потоковых данных — и вот что изменилось:
🔹 Масштабируемость — устранены ключевые болевые точки (конфигурация, локальное состояние, разрыв batch/streaming).
🔹 Скорость — снижение задержек и ускорение recovery по сравнению с Flink 1.20.x.
🔹 AI-готовность — поддержка актуальных сценариев обработки данных в реальном времени.
Уже используется для анализа метрик, трассировок и выявления аномалий с меньшими затратами.
📌 Подробности: Читать на Habr
#BigData #RealTime #ApacheFlink #DataEngineering
Команда BitDive тестирует новую версию фреймворка для обработки потоковых данных — и вот что изменилось:
🔹 Масштабируемость — устранены ключевые болевые точки (конфигурация, локальное состояние, разрыв batch/streaming).
🔹 Скорость — снижение задержек и ускорение recovery по сравнению с Flink 1.20.x.
🔹 AI-готовность — поддержка актуальных сценариев обработки данных в реальном времени.
Уже используется для анализа метрик, трассировок и выявления аномалий с меньшими затратами.
📌 Подробности: Читать на Habr
#BigData #RealTime #ApacheFlink #DataEngineering
🚀 Архитектура корпоративных данных: AWS + Snowflake
Одна из самых больших проблем дата-инженеров и аналитиков — постоянная борьба с устаревшей инфраструктурой и отсутствие прозрачности в работе конвейеров.
🔹 Результат:
✅ Вечная "пожарная" рутина
✅ Невозможность фокуса на стратегических задачах
✅ Потеря доверия бизнеса к данным
Узнайте, как оптимизировать процессы на стыке AWS и Snowflake → Читать на Habr
#DataEngineering #AWS #Snowflake #Аналитика
Одна из самых больших проблем дата-инженеров и аналитиков — постоянная борьба с устаревшей инфраструктурой и отсутствие прозрачности в работе конвейеров.
🔹 Результат:
✅ Вечная "пожарная" рутина
✅ Невозможность фокуса на стратегических задачах
✅ Потеря доверия бизнеса к данным
Узнайте, как оптимизировать процессы на стыке AWS и Snowflake → Читать на Habr
#DataEngineering #AWS #Snowflake #Аналитика
🚀 Реализация ELT-процесса в архитектуре Data Lakehouse на open-source стеке
🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.
🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация
📊 Результат:
✔ Более 1000 моделей в DBT
✔ 1 ТБ сжатых данных (объем растёт)
✔ Интеграция с Power BI, веб-приложениями, MDX-кубами
💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum
👉 Читать подробнее: Habr
#DataEngineering #ETL #OpenSource #DBT #BigData
🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.
🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация
📊 Результат:
✔ Более 1000 моделей в DBT
✔ 1 ТБ сжатых данных (объем растёт)
✔ Интеграция с Power BI, веб-приложениями, MDX-кубами
💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum
👉 Читать подробнее: Habr
#DataEngineering #ETL #OpenSource #DBT #BigData