🔍 Как ETL помогает бизнесу управлять данными
📌 Данные — это ценный ресурс, но их нужно правильно обрабатывать, чтобы превратить в полезную информацию. Процесс ETL (Extract, Transform, Load) делает именно это:
✅ Извлечение (Extract) – сбор данных из разных источников
✅ Трансформация (Transform) – очистка, изменение и структурирование
✅ Загрузка (Load) – передача в хранилище для анализа
👉 Подробнее о том, как это работает в бизнесе → **Читать на Хабре**
#Данные #ETL #Бизнес #Аналитика
📌 Данные — это ценный ресурс, но их нужно правильно обрабатывать, чтобы превратить в полезную информацию. Процесс ETL (Extract, Transform, Load) делает именно это:
✅ Извлечение (Extract) – сбор данных из разных источников
✅ Трансформация (Transform) – очистка, изменение и структурирование
✅ Загрузка (Load) – передача в хранилище для анализа
👉 Подробнее о том, как это работает в бизнесе → **Читать на Хабре**
#Данные #ETL #Бизнес #Аналитика
Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark
📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.
🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.
✨ Ключевые моменты:
- Использование необычного режима
- Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.
🔗 Читать подробнее на Habr
#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions
📌 В сложных инфраструктурных проектах даже простые задачи обработки данных могут превратиться в нетривиальные вызовы. Иногда классические "хорошие практики" приводят к неэффективным решениям, а нестандартные подходы, наоборот, дают отличный результат.
🔧 Дата-инженер Алексей Николаев из команды MWS Data (ex DataOps) рассказывает, как они разработали библиотеку d-van для массовых загрузок данных из реляционных СУБД. В основе — Apache Spark и собственная библиотека onETL, позволяющая находить компромиссы между эффективностью и удобством.
✨ Ключевые моменты:
- Использование необычного режима
master=local в Apache Spark. - Возможные альтернативы Apache Nifi и Debezium.
- Как "плохие практики" иногда становятся лучшим решением.
🔗 Читать подробнее на Habr
#DataEngineering #ApacheSpark #ETL #Databases #TechSolutions
🔧 Apache Airflow на практике: гид по оркестрации ETL-процессов
Apache Airflow уже стал must-have инструментом для инженеров данных. В статье разбираем:
✅ За что его любят в Data Engineering
✅ Как внедрить в аналитическую инфраструктуру
✅ Пошаговый гайд по развертыванию
Читайте и внедряйте → habr.com
#DataEngineering #ETL #ApacheAirflow #BigData
Apache Airflow уже стал must-have инструментом для инженеров данных. В статье разбираем:
✅ За что его любят в Data Engineering
✅ Как внедрить в аналитическую инфраструктуру
✅ Пошаговый гайд по развертыванию
Читайте и внедряйте → habr.com
#DataEngineering #ETL #ApacheAirflow #BigData
Основы ETL: обработка данных с Superset, Airflow и ClickHouse
<img src="https://habrastorage.org/getpro/habr/uploadfiles/1a1/e7d/b9b/1a1e7db9b385c53f3ec050aec1fe87b5.jpg" />
Кратко о том, как запустить простой ETL-процесс с помощью связки Superset, Airflow и ClickHouse. В статье — пример выгрузки и визуализации данных о товарах Wildberries.
**Что используется:**
🔹 **Superset + Airflow** — готовый набор от Beget для удобной работы с данными
🔹 **ClickHouse** — для хранения и обработки информации
🔹 **Selenium, BeautifulSoup, re** — парсинг и обработка данных
👉 [Подробнее в статье](https://habr.com/ru/companies/beget/articles/928712/?utmcampaign=928712&utmsource=habrahabr&utmmedium=rss)
#ETL #DataEngineering #Superset #Airflow #ClickHouse
<img src="https://habrastorage.org/getpro/habr/uploadfiles/1a1/e7d/b9b/1a1e7db9b385c53f3ec050aec1fe87b5.jpg" />
Кратко о том, как запустить простой ETL-процесс с помощью связки Superset, Airflow и ClickHouse. В статье — пример выгрузки и визуализации данных о товарах Wildberries.
**Что используется:**
🔹 **Superset + Airflow** — готовый набор от Beget для удобной работы с данными
🔹 **ClickHouse** — для хранения и обработки информации
🔹 **Selenium, BeautifulSoup, re** — парсинг и обработка данных
👉 [Подробнее в статье](https://habr.com/ru/companies/beget/articles/928712/?utmcampaign=928712&utmsource=habrahabr&utmmedium=rss)
#ETL #DataEngineering #Superset #Airflow #ClickHouse
🚀 Реализация ELT-процесса в архитектуре Data Lakehouse на open-source стеке
🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.
🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация
📊 Результат:
✔ Более 1000 моделей в DBT
✔ 1 ТБ сжатых данных (объем растёт)
✔ Интеграция с Power BI, веб-приложениями, MDX-кубами
💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum
👉 Читать подробнее: Habr
#DataEngineering #ETL #OpenSource #DBT #BigData
🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.
🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация
📊 Результат:
✔ Более 1000 моделей в DBT
✔ 1 ТБ сжатых данных (объем растёт)
✔ Интеграция с Power BI, веб-приложениями, MDX-кубами
💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum
👉 Читать подробнее: Habr
#DataEngineering #ETL #OpenSource #DBT #BigData