Что такое Apache Airflow
Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.
🔑 Ключевые особенности
- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.
💻 Использование
Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.
🚀 С чего начать?
Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.
Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/
#airflow #etl #elt
Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.
- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.
Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.
Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.
Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/
#airflow #etl #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
Apache Airflow
Home
Platform created by the community to programmatically author, schedule and monitor workflows.
#etl #de #sql #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
Прелюдия
#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
Начало
Если ты активно работаешь с данными, ты, вероятно, сталкивался с такими системами, как Snowflake, Databricks, Kafka и т.д., о которых было написано много статей о том, как они произвели революцию в обработке данных.
Однако, несмотря на всю эту шумиху, многие компании поняли, что всё это быстро становится дорогостоящим. Мониторинг и отработка отказов обходятся дорого, особенно в таких системах, как Kafka, Apache Spark и Snowflake, в которых много узлов.
Если тебе интересно:
Если да, то этот цикл постов для тебя. Представь, если бы твои затраты на обработку данных были настолько низкими, что тебе даже не пришлось бы их отслеживать!
Обсудим подход, который использует последние достижения в области обработки данных в оперативной памяти в сочетании с дешёвым и мощным железом для значительного снижения затрат на обработку данных!
#duckdb #python #etl #de #elt #kafka #spark #databricks #snowflake
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
🐍🦆
Построение эффективных дата-пайплайнов с помощью Python и DuckDB
TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов
👇👇👇
0⃣ Прелюдия
1️⃣ Начало
2️⃣ Проект
…
Построение эффективных дата-пайплайнов с помощью Python и DuckDB
TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов
👇👇👇
0⃣ Прелюдия
1️⃣ Начало
2️⃣ Проект
…
На изображении показан процесс, который является визуальной метафорой на основе популярной песни Михаила Шуфутинского "Третье сентября". Этот процесс можно интерпретировать как ETL-процесс в дата инженерии, если рассматривать его с точки зрения последовательных шагов обработки данных:
1️⃣ Извлечение (Extract): "Календарь" и "Фото твоё" — это источники данных.
2️⃣ Трансформация (Transform): Шаги, включающие "Я календарь переверну" и "На фото я твоё взгляну", можно рассматривать как этапы обработки данных.
3️⃣ Загрузка (Load): Результатом является "План дальнейших действий", что можно интерпретировать как целевой набор данных.
🔘 Идемпотентность
Идемпотентность подразумевает, что повторное выполнение одного и того же процесса не изменяет результат. В данном контексте, если процесс повторяется каждый год, и результат всегда одинаков ("Третье сентября" каждый год), можно сказать, что процесс идемпотентен.
🔘 Логические ошибки
С точки зрения логики ETL, основной вопрос возникает с условием:
✖️ Если каждый год мы переворачиваем календарь и смотрим на фото, и снова наступает третье сентября, то это выглядит как бесконечный цикл. Это может быть проблемой с точки зрения времени выполнения и целевого состояния данных.
✖️ Условие, где говорится "Ведь было всё у нас вчера" (если сравнивать с 2 сентября), похоже на попытку логической проверки, но нет явного указания, что происходит, если проверка не пройдена.
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
Итак, в данной схеме отсутствует четкая логическая развязка, которая позволила бы избежать бесконечных повторений или учесть ошибки. Это не совсем обычная ситуация для стандартного ETL-процесса, где такие аспекты должны быть четко определены.
Следовательно, несмотря на творческую интерпретацию процесса как ETL, для практического применения в дата инженерии потребовалось бы уточнение и исправление логических ошибок, связанных с итерациями и условиями.
#ai #chatgpt #meme #шуфутинский #de #etl
Идемпотентность подразумевает, что повторное выполнение одного и того же процесса не изменяет результат. В данном контексте, если процесс повторяется каждый год, и результат всегда одинаков ("Третье сентября" каждый год), можно сказать, что процесс идемпотентен.
С точки зрения логики ETL, основной вопрос возникает с условием:
Итак, в данной схеме отсутствует четкая логическая развязка, которая позволила бы избежать бесконечных повторений или учесть ошибки. Это не совсем обычная ситуация для стандартного ETL-процесса, где такие аспекты должны быть четко определены.
Следовательно, несмотря на творческую интерпретацию процесса как ETL, для практического применения в дата инженерии потребовалось бы уточнение и исправление логических ошибок, связанных с итерациями и условиями.
#ai #chatgpt #meme #шуфутинский #de #etl
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13
Если ты сталкивался с требованиями «знания продвинутого SQL» в вакансиях, но не понимал, что именно под этим подразумевается, эта статья для тебя.
- Оконные функции и CTEs
- Различные типы JOIN и MERGE INTO
- Оптимизация запросов: партиционирование, кластеризация, избегание data skew
- Моделирование данных: Dimension, Fact, Bridge, OBT и агрегированные таблицы
#DE #DataEngineering #SQL #BigData #ETL #Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Startdataengineering
Advanced SQL is knowing how to model the data & get there effectively
Most data engineering job descriptions these days expect "knowledge of advanced SQL," but ask any data engineer that question, and you will get a different answer every time.
Are you
> Frustrated that "advanced SQL" ebooks or Udemy courses aren't really all…
Are you
> Frustrated that "advanced SQL" ebooks or Udemy courses aren't really all…
❤🔥8