Что такое Apache Airflow
Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.
🔑 Ключевые особенности
- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.
💻 Использование
Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.
🚀 С чего начать?
Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.
Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/
#airflow #etl #elt
Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.
- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.
Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.
Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.
Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/
#airflow #etl #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
Apache Airflow
Home
Platform created by the community to programmatically author, schedule and monitor workflows.
Forwarded from DataEng
Airflow 2.7.0
Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0
Из новых фишечек:
— Setup and Teardown tasks
— Cluster Activity UI
— OpenLineage built-in integration
Улучшения:
— Убрали поддержку Python 3.7
— В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду
Полный список можно посмотреть тут.
Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0
Из новых фишечек:
— Setup and Teardown tasks
— Cluster Activity UI
— OpenLineage built-in integration
Улучшения:
— Убрали поддержку Python 3.7
— В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду
airflow db migrate
Полный список можно посмотреть тут.
Apache Airflow
Apache Airflow 2.7.0 is here
Apache Airflow 2.7.0 has been released!
👍2
Гайд о том как развернуть Apache Airflow локально через Kubernetes: https://blog.det.life/setting-up-apache-airflow-on-kubernetes-for-local-development-f873115fbe93
#airflow
#airflow
Medium
Setting Up Apache Airflow on Kubernetes for Local Development
In the ever-evolving realm of software development, transformative technologies come in wave after wave, shaping the way we conceive and…
❤🔥3
Статья об использовании Airflow в Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. Автор рассказывает о развёрнутом Airflow с 300 DAG's и примерно 5 000 task's. Запускаются в основном лёгкие задачи, такие как dbt-трансформации, поэтому при использовании
Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.
#airflow
KubernetesExecutor
автор столкнулся с тем, что инициализация Kubernetes Pod занимает больше времени чем выполнение самой задачи. В итоге автор заменил исполнителя на CeleryExecutor. Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.
#airflow
Medium
What we learned after running Airflow on Kubernetes for 2 years
Apache Airflow is one of the most important components in our Data Platform, used by different teams inside the business. It powers all of…
❤🔥3🆒2
Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые автор планирует покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе автор подробно разбирает как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
Startdatajourney
Apache Airflow 2.2: практический курс
Практический курс по основам Apache Airflow версии 2.2 и выше
🆒8
📦 PyPI
docker pull apache/airflow:2.8.3
#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥3
The state of Apache Airflow
Компания astronomer подготовила отчет о состоянии apache airflow на 2024 год.
Airflow продемонстрировал огромный рост в 2023 году: его загрузили более 165 миллионов раз (+67% по сравнению с прошлым годом). В настоящее время Airflow опережает Spark и Kafka по росту сообщества, и 92% пользователей заявили, что рекомендуют его.
#airflow
Компания astronomer подготовила отчет о состоянии apache airflow на 2024 год.
Airflow продемонстрировал огромный рост в 2023 году: его загрузили более 165 миллионов раз (+67% по сравнению с прошлым годом). В настоящее время Airflow опережает Spark и Kafka по росту сообщества, и 92% пользователей заявили, что рекомендуют его.
#airflow
🆒6😁5❤🔥2
📦 PyPi
docker pull apache/airflow:2.8.4
#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
PyPI
apache-airflow
Programmatically author, schedule and monitor data pipelines
❤🔥4🆒3 1
Сегодня выкатили новую версия Apache Airflow — 2.9. В релизе много полезных изменений и фиксов, а также новых фич:
@task
.bash
декоратор. Возвращаемое значение обёрнутой в этот декоратор функции будет выполнено в виде bash-командыПолный список изменений смотри по ссылке.
#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
Release Apache Airflow 2.9.0 · apache/airflow
Significant Changes
Following Listener API methods are considered stable and can be used for production system (were experimental feature in older Airflow versions) (#36376):
Lifecycle events:
on_...
Following Listener API methods are considered stable and can be used for production system (were experimental feature in older Airflow versions) (#36376):
Lifecycle events:
on_...
❤🔥3 2🆒1
Сегодня выкатили новую версия Apache Airflow — 2.10.0
В релизе много полезных изменений и фиксов, а также новых фич:
@skip_if
и @run_if
с помощью которых ты можешь удобно задать условия запуска или пропуска Task`аtry_number
больше не увеличивается во время выполнения Task`а[usage_data_collection]enabled=False
или переменную окружения SCARF_ANALYTICS=false
Полный список изменений смотри тут или тут.
#airflow #de #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
Don't queue runs on DatasetEvent for disabled DAGs by uranusjr · Pull Request #38891 · apache/airflow
Maybe fix #38826?
This adds an additional filter on consuming DAG, and only create a DatasetDagRunQueue entry if the DAG is both active (i.e. still exists in a DAG file) and unpaused.
There are sti...
This adds an additional filter on consuming DAG, and only create a DatasetDagRunQueue entry if the DAG is both active (i.e. still exists in a DAG file) and unpaused.
There are sti...
1 19
Forwarded from Data Coffee
Установили новую версию Airflow 3.0 вместе со слушателями подкаста🎧, посмотрели на новый модный интерфейс📊, и даже запустили пару DAGs в прямом эфире😱
В свежем видео от Data Coffee рассказываем:
• о новых фичах Airflow в версии 3.0
• как установить себе Airflow локально через Docker Compose
• достучаться донебес интерфейса
• и другое
#datacoffee #airflow #установка #прямойэфир
https://youtu.be/SVJRb9zf9SA?feature=shared
В свежем видео от Data Coffee рассказываем:
• о новых фичах Airflow в версии 3.0
• как установить себе Airflow локально через Docker Compose
• достучаться до
• и другое
#datacoffee #airflow #установка #прямойэфир
https://youtu.be/SVJRb9zf9SA?feature=shared
❤🔥7