Linux | OpenSource | Tech
5 subscribers
1.47K links
Download Telegram
🔍 Как ETL помогает бизнесу управлять данными

📌 Данные — это ценный ресурс, но их нужно правильно обрабатывать, чтобы превратить в полезную информацию. Процесс ETL (Extract, Transform, Load) делает именно это:

Извлечение (Extract) – сбор данных из разных источников
Трансформация (Transform) – очистка, изменение и структурирование
Загрузка (Load) – передача в хранилище для анализа

👉 Подробнее о том, как это работает в бизнесе → **Читать на Хабре**

#Данные #ETL #Бизнес #Аналитика
Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark

📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.

🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.

Ключевые моменты:
- Использование необычного режима master=local в Apache Spark.
- Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.

🔗 Читать подробнее на Habr

#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions
🔧 Apache Airflow на практике: гид по оркестрации ETL-процессов

Apache Airflow уже стал must-have инструментом для инженеров данных. В статье разбираем:
За что его любят в Data Engineering
Как внедрить в аналитическую инфраструктуру
Пошаговый гайд по развертыванию

Читайте и внедряйте → habr.com

#DataEngineering #ETL #ApacheAirflow #BigData
Основы ETL: обработка данных с Superset, Airflow и ClickHouse

<img src="https://habrastorage.org/getpro/habr/uploadfiles/1a1/e7d/b9b/1a1e7db9b385c53f3ec050aec1fe87b5.jpg" />

Кратко о том, как запустить простой
ETL-процесс с помощью связки Superset, Airflow и ClickHouse. В статье — пример выгрузки и визуализации данных о товарах Wildberries.

**Что используется:**
🔹 **Superset + Airflow** — готовый набор от Beget для удобной работы с данными
🔹 **ClickHouse** — для хранения и обработки информации
🔹 **Selenium, BeautifulSoup, re** — парсинг и обработка данных

👉 [Подробнее в статье](
https://habr.com/ru/companies/beget/articles/928712/?utmcampaign=928712&utmsource=habrahabr&utmmedium=rss)

#ETL #DataEngineering #Superset #Airflow #ClickHouse
🚀 Реализация ELT-процесса в архитектуре Data Lakehouse на open-source стеке

🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.

🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация

📊 Результат:
Более 1000 моделей в DBT
1 ТБ сжатых данных (объем растёт)
Интеграция с Power BI, веб-приложениями, MDX-кубами

💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum

👉 Читать подробнее: Habr

#DataEngineering #ETL #OpenSource #DBT #BigData