397 subscribers
228 photos
47 videos
11 files
307 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt

Буст канала тут - https://t.me/boost/data_engi
Download Telegram
Что такое Apache Airflow

Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.

🔑 Ключевые особенности

- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.

💻 Использование

Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.

🚀 С чего начать?

Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.

Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/

#airflow #etl #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
👆 Малоизвестные, но интересные ETL-инструменты


▶️ Astera Centerprise - готовое к использованию ETL-решение корпоративного уровня, которое предлагает возможности интеграции и преобразования необработанных данных любой сложности и размера в различных форматах: от сложных иерархических файлов и неструктурированных документов до отраслевых форматов, таких как EDI, и даже устаревших данных, таких как COBOL.

▶️ Talend - программная платформа с открытым исходным кодом, которая предлагает решения для интеграции данных и управления ими. Talend специализируется на интеграции больших данных. Этот инструмент предоставляет такие функции, как облачные технологии, большие данные, интеграция корпоративных приложений, качество данных и управление основными данными. Он также предоставляет единое хранилище для хранения и повторного использования метаданных.

▶️ Skyvia - веб-сервис для интеграции облачных данных и резервного копирования. Он предлагает инструменты ETL для интеграции cloud CRM с другими источниками данных и позволяет пользователям контролировать все свои бизнес-данные. Данные можно просматривать и обрабатывать с помощью SQL. Skyvia обеспечивает простую интеграцию данных без навыков программирования.

▶️ Pentaho - инструмент бизнес-аналитики, который предоставляет клиентам широкий спектр решений для бизнес-аналитики. Он способен создавать отчеты, анализировать данные, интегрировать данные, извлекать данные и т.д. Pentaho также предлагает полный набор функций BI, которые могут повысить производительность и эффективность бизнеса.

▶️ Hevo Data - платформа ETL, которая поддерживает интеграцию, перемещение и обработку данных. Она поддерживает широкий спектр источников данных и обеспечивает репликацию данных в режиме реального времени. Этот инструмент облегчает извлечение, преобразование и загрузку данных в указанные целевые пункты назначения.

#etl #de #sql #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
5
🐍🦆

Построение эффективных дата-пайплайнов с помощью Python и DuckDB

TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов

👇👇👇

0⃣ Прелюдия

1️⃣ Начало

2️⃣ Проект

#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥63👏1
0⃣-й пост из цикла.

Прелюдия

🔘Ты ежедневно обрабатываешь несколько ГБ данных, но тратишь часы на настройку/отладку масштабных систем обработки данных? Кто бы ни создавал инфраструктуру данных, он скорее всего скопировал её из какого-то блога/выступления крупной технологической компании!

🔘Представь, что внезапно ответственность за управление расходами команд обработки данных легла на твои плечи. Тебе приходится тщательно проверять все расходы на систему, какими бы незначительными они ни были, чтобы сэкономить немного денег для компании.

🔘Может быть неприятно, когда поставщики данных взимают с компании кучу денег и с радостью возьмут ещё больше, если ты не будешь осторожен с использованием доставшегося тебе легаси.

🔘Представь себе, если бы затраты на обработку данных были очень дешёвыми! Представь себе, что ты можешь быстро воспроизводить и отлаживать проблемы на своем ноутбуке!

🔘В цикле постов расскажу, как использовать последние достижения в области систем обработки данных и дешёвое оборудование для обеспечения дешёвой обработки данных. Буду использовать DuckDB и Python, чтобы показать, как быстро и дёшево обрабатывать данные, одновременно улучшая эргономику разработчиков.

#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
55
1️⃣-й пост из цикла

Начало

Если ты активно работаешь с данными, ты, вероятно, сталкивался с такими системами, как Snowflake, Databricks, Kafka и т.д., о которых было написано много статей о том, как они произвели революцию в обработке данных.

Однако, несмотря на всю эту шумиху, многие компании поняли, что всё это быстро становится дорогостоящим. Мониторинг и отработка отказов обходятся дорого, особенно в таких системах, как Kafka, Apache Spark и Snowflake, в которых много узлов.

Если тебе интересно:

🔜 Как будущее уходит от распределенных вычислений?

🔜 Почему компании тратят умопомрачительные суммы денег на эти бесполезные ресурсы?

🔜 Почему небольшие компании имитируют то, что делают крупные компании, не будучи при этом крупными компаниями?

🔜 Зачем нужно просматривать данные в инфракрасном диапазоне с помощью микроскопа, да ещё и переплачивать за все эти популярные инструменты?

🔜 Как избежать выплаты 1000 долларов за случайное сканирование данных.

🔜 Как избегать поставщиков данных, которые почти всегда возлагают ответственность за то, чтобы пользователи использовали их инструменты “правильным образом”?

Если да, то этот цикл постов для тебя. Представь, если бы твои затраты на обработку данных были настолько низкими, что тебе даже не пришлось бы их отслеживать!

Обсудим подход, который использует последние достижения в области обработки данных в оперативной памяти в сочетании с дешёвым и мощным железом для значительного снижения затрат на обработку данных!


#duckdb #python #etl #de #elt #kafka #spark #databricks #snowflake
Please open Telegram to view this post
VIEW IN TELEGRAM
12
На изображении показан процесс, который является визуальной метафорой на основе популярной песни Михаила Шуфутинского "Третье сентября". Этот процесс можно интерпретировать как ETL-процесс в дата инженерии, если рассматривать его с точки зрения последовательных шагов обработки данных:

1️⃣ Извлечение (Extract): "Календарь" и "Фото твоё" — это источники данных.
2️⃣ Трансформация (Transform): Шаги, включающие "Я календарь переверну" и "На фото я твоё взгляну", можно рассматривать как этапы обработки данных.
3️⃣ Загрузка (Load): Результатом является "План дальнейших действий", что можно интерпретировать как целевой набор данных.

🔘 Идемпотентность
Идемпотентность подразумевает, что повторное выполнение одного и того же процесса не изменяет результат. В данном контексте, если процесс повторяется каждый год, и результат всегда одинаков ("Третье сентября" каждый год), можно сказать, что процесс идемпотентен.

🔘 Логические ошибки
С точки зрения логики ETL, основной вопрос возникает с условием:

✖️ Если каждый год мы переворачиваем календарь и смотрим на фото, и снова наступает третье сентября, то это выглядит как бесконечный цикл. Это может быть проблемой с точки зрения времени выполнения и целевого состояния данных.
✖️ Условие, где говорится "Ведь было всё у нас вчера" (если сравнивать с 2 сентября), похоже на попытку логической проверки, но нет явного указания, что происходит, если проверка не пройдена.

〰️〰️〰️〰️〰️〰️〰️〰️

Итак, в данной схеме отсутствует четкая логическая развязка, которая позволила бы избежать бесконечных повторений или учесть ошибки. Это не совсем обычная ситуация для стандартного ETL-процесса, где такие аспекты должны быть четко определены.

Следовательно, несмотря на творческую интерпретацию процесса как ETL, для практического применения в дата инженерии потребовалось бы уточнение и исправление логических ошибок, связанных с итерациями и условиями.

#ai #chatgpt #meme #шуфутинский #de #etl
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13
📊 Продвинутый SQL: Моделирование и эффективный доступ к данным

Если ты сталкивался с требованиями «знания продвинутого SQL» в вакансиях, но не понимал, что именно под этим подразумевается, эта статья для тебя.

🐱 В ней рассматриваются:
- Оконные функции и CTEs
- Различные типы JOIN и MERGE INTO
- Оптимизация запросов: партиционирование, кластеризация, избегание data skew
- Моделирование данных: Dimension, Fact, Bridge, OBT и агрегированные таблицы

📖 Подробнее: https://www.startdataengineering.com/post/advanced-sql/

#DE #DataEngineering #SQL #BigData #ETL #Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8