397 subscribers
226 photos
46 videos
11 files
305 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt

Буст канала тут - https://t.me/boost/data_engi
Download Telegram
Что такое Apache Airflow

Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.

🔑 Ключевые особенности

- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.

💻 Использование

Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.

🚀 С чего начать?

Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.

Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/

#airflow #etl #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DataEng
Airflow 2.7.0

Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0

Из новых фишечек:

Setup and Teardown tasks
Cluster Activity UI
OpenLineage built-in integration

Улучшения:
— Убрали поддержку Python 3.7
В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду airflow db migrate

Полный список можно посмотреть тут.
👍2
Статья об использовании Airflow в Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. Автор рассказывает о развёрнутом Airflow с 300 DAG's и примерно 5 000 task's. Запускаются в основном лёгкие задачи, такие как dbt-трансформации, поэтому при использовании KubernetesExecutor автор столкнулся с тем, что инициализация Kubernetes Pod занимает больше времени чем выполнение самой задачи. В итоге автор заменил исполнителя на CeleryExecutor.

Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.

#airflow
❤‍🔥3🆒2
🔥 Бесплатный курс про Apache Airflow

Apache Airflow 2.2: практический курс

За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые автор планирует покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.

В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе автор подробно разбирает как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.

#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒8
dbt-af

🔥 Подход к интеграции dbt и airflow. Ребята недавно заопенсорсили либу. Есть туториал.

Можно накидывать ишью, препарировать в форках, использовать, ставить звёздочки ⭐️

#dbt #airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5🆒2❤‍🔥1
⚡️ Выкатили новую версию 🖼️ Airflow 2.8.3


📦 PyPI

📚 Docs

🛠 Release Notes

🐳 Docker Image:
docker pull apache/airflow:2.8.3

#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3
The state of Apache Airflow

Компания astronomer подготовила отчет о состоянии apache airflow на 2024 год.

Airflow продемонстрировал огромный рост в 2023 году: его загрузили более 165 миллионов раз (+67% по сравнению с прошлым годом). В настоящее время Airflow опережает Spark и Kafka по росту сообщества, и 92% пользователей заявили, что рекомендуют его.

#airflow
🆒6😁5❤‍🔥2
⚡️ Выкатили новую версию 🖼️ Airflow 2.8.4


📦 PyPi

📚 Docs

🛠 Release Notes

🐳 Docker Image:
docker pull apache/airflow:2.8.4

#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4🆒31
🖼️ Airflow 2.9

Сегодня выкатили новую версия Apache Airflow — 2.9. В релизе много полезных изменений и фиксов, а также новых фич:

▶️ поддержка Python 3.12

▶️ Listener API стабилизировался и его можно использовать в продакшене

▶️ Поддержка multiple executors (AIP-61 Hybrid Execution)

▶️ DatasetOrTimeSchedule, срабатывание по Timetable расписанию и Dataset событиям

▶️ @task.bash декоратор. Возвращаемое значение обёрнутой в этот декоратор функции будет выполнено в виде bash-команды

Полный список изменений смотри по ссылке.

#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥32🆒1
🖼️ Airflow 2.10.0

Сегодня выкатили новую версия Apache Airflow — 2.10.0
В релизе много полезных изменений и фиксов, а также новых фич:

▶️ декораторы @skip_if и @run_if с помощью которых ты можешь удобно задать условия запуска или пропуска Task`а

▶️ Datasets больше не запускают неактивные DAG`и

▶️ одновременное использование нескольких Executor в рамках одного DAG`а

▶️ try_number больше не увеличивается во время выполнения Task`а

▶️ Важно! Теперь Airflow по дефолту собирает телеметрию, все данные передаются в Scarf. Можешь отключить, нужно поправить конфиг [usage_data_collection]enabled=False или переменную окружения SCARF_ANALYTICS=false

Полный список изменений смотри тут или тут.

#airflow #de #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
119
9😁1
Forwarded from Data Coffee
Установили новую версию Airflow 3.0 вместе со слушателями подкаста🎧, посмотрели на новый модный интерфейс📊, и даже запустили пару DAGs в прямом эфире😱

В свежем видео от Data Coffee рассказываем:
• о новых фичах Airflow в версии 3.0
• как установить себе Airflow локально через Docker Compose
• достучаться до небес интерфейса
• и другое

#datacoffee #airflow #установка #прямойэфир

https://youtu.be/SVJRb9zf9SA?feature=shared
❤‍🔥7
DE
Уже многие могли видеть униформу эксельщика 😁 #meme #excel
Подвезли и униформу эйрфлоущика 😂

#meme #airflow
😁76👏11