https://t.me/data_days/271
#Dagster #vs #Airflow
И отдельно поворчу про манеру автора ставить ссылки. С одной стороны клёво, что их прям много, видно что он их собирал со всего интернета и аккуратно складывал в нужную папочку, чтобы вставить в релевантный абзац.
С другой: ставить ссылки на рандомные слова в предложение — моветон. В двух случаях это ссылки на статьи на Медиуме, потом ссылка на вырезку в ютубе или вообще Тикток. Страшно неудобно, особенно с мобилы.
Отдельно зашёл с компа и протыкал все ссылки. Мемчики с тиктоками оставил в авторском оригинале, а отдельно собрал ссылки на всякие статьи-заметки:
- Moving past Airflow: Why Dagster is the next-generation data orchestrator
- Why Not Airflow?
- The Unbundling of Airflow
- Airflow's Problem
- Data plane activation
- Either-or decisions
- The powder keg of the modern data stack
- The data OS
- Data Traffic Control with Apache Airflow
- (Re)Introducing Prefect: The Global Coordination Plane
#Dagster #vs #Airflow
И отдельно поворчу про манеру автора ставить ссылки. С одной стороны клёво, что их прям много, видно что он их собирал со всего интернета и аккуратно складывал в нужную папочку, чтобы вставить в релевантный абзац.
С другой: ставить ссылки на рандомные слова в предложение — моветон. В двух случаях это ссылки на статьи на Медиуме, потом ссылка на вырезку в ютубе или вообще Тикток. Страшно неудобно, особенно с мобилы.
Отдельно зашёл с компа и протыкал все ссылки. Мемчики с тиктоками оставил в авторском оригинале, а отдельно собрал ссылки на всякие статьи-заметки:
- Moving past Airflow: Why Dagster is the next-generation data orchestrator
- Why Not Airflow?
- The Unbundling of Airflow
- Airflow's Problem
- Data plane activation
- Either-or decisions
- The powder keg of the modern data stack
- The data OS
- Data Traffic Control with Apache Airflow
- (Re)Introducing Prefect: The Global Coordination Plane
Forwarded from DE
Что такое Apache Airflow
Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.
🔑 Ключевые особенности
- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.
💻 Использование
Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.
🚀 С чего начать?
Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.
Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/
#airflow #etl #elt
Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.
- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.
Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.
Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.
Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/
#airflow #etl #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
Apache Airflow
Home
Platform created by the community to programmatically author, schedule and monitor workflows.
The State of Data Engineering (но не в РФ). Часть 1.
Когда я выступал какое-то время назад на TechTrain, я делал опрос по поводу технологий/стека и языков, используемых у нас в сфере. Но опрос был сугубо на РФ аудиторию. Наткнулся тут у одного из популярных блоггеров на похожый опрос и решил посмотреть результаты. Результаты в большей степени релевантны для американского рынка, ~400 человек ответило, подавляющее большинство именно определяют себя как Data Engineer.
Смотрим картинки, мои комментарии, как всегда, особо и не нужны, и так все очевидно:
- Ходуб умер. Для аналитических платформ лидирует #BQ, затем #Snowflake, #Redshift и #Databricks. И это там, где была выбрана только одна платформа. У 41% респондентов >1 аналитической платформы.
- #Airflow или самоделка. Все остальные оркестраторы проигрывают очень много. Еще интересный пункт None, это видимо кто-то руками или по крону запускает 🤪
- Проблема найма. Ну тут ничего удивительного, найти нормального инженера все также сложно, вне зависимости от лейофов.
Там еще 2 части с ответами есть, до них доберемся на неделе.
Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part
@ohmydataengineer #survey #DE
https://t.me/ohmydataengineer/318
Когда я выступал какое-то время назад на TechTrain, я делал опрос по поводу технологий/стека и языков, используемых у нас в сфере. Но опрос был сугубо на РФ аудиторию. Наткнулся тут у одного из популярных блоггеров на похожый опрос и решил посмотреть результаты. Результаты в большей степени релевантны для американского рынка, ~400 человек ответило, подавляющее большинство именно определяют себя как Data Engineer.
Смотрим картинки, мои комментарии, как всегда, особо и не нужны, и так все очевидно:
- Ходуб умер. Для аналитических платформ лидирует #BQ, затем #Snowflake, #Redshift и #Databricks. И это там, где была выбрана только одна платформа. У 41% респондентов >1 аналитической платформы.
- #Airflow или самоделка. Все остальные оркестраторы проигрывают очень много. Еще интересный пункт None, это видимо кто-то руками или по крону запускает 🤪
- Проблема найма. Ну тут ничего удивительного, найти нормального инженера все также сложно, вне зависимости от лейофов.
Там еще 2 части с ответами есть, до них доберемся на неделе.
Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part
@ohmydataengineer #survey #DE
https://t.me/ohmydataengineer/318
Data & IT Career
#Собесы… (надо было такой #тег сделать, то каждый раз ищу, какие там сделал.. #interview #techinterview 😅 ) Я, на самом деле, не особо согласен с обоими авторами, но почитать (и пописАть под пост) и посмотреть доклад (сам пересматривать буду)) с размышлениями…
Как раз о "проблеме времени билда" (в конце 5-го абзаца в моём посте реплайнутом) вышло у учителя по ведению канала:
https://t.me/rockyourdata/4215 ->
https://t.me/roma_reporting/562
#Яндекс, кстати, в защиту своих задач по лавкодингу и указывает на этот скилл в этом разрезе, насколько я помню, в одной из своих статей про алгособесы - типа, проверяет возможность написать код без ошибок при отсутствии возможности отладки (возможность запустить его), так как запустить код и сразу увидеть результат в работе на практике иногда недостижимая роскошь. Поищу статью...
#todo
На самом деле, у меня на текущей задаче прям эта же проблема: деплой изменений по DAGам #airflow (в нём я новичок) занимает минут 5-7, которые приходится ждать, чтобы увидеть в airglow UI очередную (обычно глупую)) ошибку, py-скрипты DAG'ов на этом сервере руками не поправить (нет прав), локальное окружение на ноуте непонятно пока, как настроить (там много всего нужно) и реально ли вообще... Буду разбираться (с окружением выглядит сложно, а вот наличие прав на свою папку ДАГов выглядело бы в самый раз), а пока приходится развивать скилл многозадачности, чтобы каждые 5-7 минут возвращаться к этой задаче не теряя при этом контекст (вот эти вот графики из статьи выравнивать по сути))
источник графиков: https://t.me/roma_reporting/562?comment=1892
https://t.me/rockyourdata/4215 ->
https://t.me/roma_reporting/562
#Яндекс, кстати, в защиту своих задач по лавкодингу и указывает на этот скилл в этом разрезе, насколько я помню, в одной из своих статей про алгособесы - типа, проверяет возможность написать код без ошибок при отсутствии возможности отладки (возможность запустить его), так как запустить код и сразу увидеть результат в работе на практике иногда недостижимая роскошь. Поищу статью...
#todo
На самом деле, у меня на текущей задаче прям эта же проблема: деплой изменений по DAGам #airflow (в нём я новичок) занимает минут 5-7, которые приходится ждать, чтобы увидеть в airglow UI очередную (обычно глупую)) ошибку, py-скрипты DAG'ов на этом сервере руками не поправить (нет прав), локальное окружение на ноуте непонятно пока, как настроить (там много всего нужно) и реально ли вообще... Буду разбираться (с окружением выглядит сложно, а вот наличие прав на свою папку ДАГов выглядело бы в самый раз), а пока приходится развивать скилл многозадачности, чтобы каждые 5-7 минут возвращаться к этой задаче не теряя при этом контекст (вот эти вот графики из статьи выравнивать по сути))
источник графиков: https://t.me/roma_reporting/562?comment=1892
Telegram
Инжиниринг Данных
В гугле показали зависимость продуктивности инженеров от времени "билда", или проще говоря от "вынужденного временного простоя исполнителя"
Если мы принимаем что продуктивность в т.ч. зависит от того насколько часто инженер отвлекается от своего основного…
Если мы принимаем что продуктивность в т.ч. зависит от того насколько часто инженер отвлекается от своего основного…
Forwarded from DataEng
Airflow 2.7.0
Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0
Из новых фишечек:
— Setup and Teardown tasks
— Cluster Activity UI
— OpenLineage built-in integration
Улучшения:
— Убрали поддержку Python 3.7
— В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду
Полный список можно посмотреть тут.
Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0
Из новых фишечек:
— Setup and Teardown tasks
— Cluster Activity UI
— OpenLineage built-in integration
Улучшения:
— Убрали поддержку Python 3.7
— В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду
airflow db migrate
Полный список можно посмотреть тут.
Apache Airflow
Apache Airflow 2.7.0 is here
Apache Airflow 2.7.0 has been released!
Data & IT Career
Airflow 2.7.0 Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0 Из новых фишечек: — Setup and Teardown tasks — Cluster Activity UI — OpenLineage built-in integration Улучшения: — Убрали поддержку…
Telegram
Data engineering events in Russian Business Intelligence Chat
отношение к airflow в кругах прошаренных дата инженерных ресёрчеров 😁
https://t.me/enthusiastech/294?comment=1009
https://t.me/enthusiastech/294?comment=1009
The state of Apache Airflow
Компания #astronomer подготовила отчет о состоянии apache airflow на 2024 год.
#Airflow продемонстрировал огромный рост в 2023 году: его загрузили более 165 миллионов раз (+67% по сравнению с прошлым годом). В настоящее время Airflow опережает Spark и Kafka по росту сообщества, и 92% пользователей заявили, что рекомендуют его.
источник:https://t. me/data_engi/308 https://t.me/datawhisper/244 #theStateOf #y2024 #dataexplorers
Компания #astronomer подготовила отчет о состоянии apache airflow на 2024 год.
#Airflow продемонстрировал огромный рост в 2023 году: его загрузили более 165 миллионов раз (+67% по сравнению с прошлым годом). В настоящее время Airflow опережает Spark и Kafka по росту сообщества, и 92% пользователей заявили, что рекомендуют его.
источник:
Data & IT Career
The state of Apache Airflow Компания #astronomer подготовила отчет о состоянии apache airflow на 2024 год. #Airflow продемонстрировал огромный рост в 2023 году: его загрузили более 165 миллионов раз (+67% по сравнению с прошлым годом). В настоящее время…
Telegram
Data engineering events
🖼️ Airflow 2.9
Сегодня выкатили новую версия Apache #Airflow — 2.9. В релизе много полезных изменений и фиксов, а также новых фич:
▶️ поддержка Python 3.12
▶️ Listener API стабилизировался и его можно использовать в продакшене
▶️ Поддержка multiple…
Сегодня выкатили новую версия Apache #Airflow — 2.9. В релизе много полезных изменений и фиксов, а также новых фич:
▶️ поддержка Python 3.12
▶️ Listener API стабилизировался и его можно использовать в продакшене
▶️ Поддержка multiple…
Data & IT Career
Но не пугаемся, и не забываем, что по факту в 99% используется 1% всего этого добра (вот такой перекошенный Паретто… ну может не 1/99 - не считал, ну уж точно не 20/80 😁) Так что не стоит пугаться всего этого многообразия, а главное - учить мейнстрим, коего…
https://t.me/dataexplorers/252 #Airflow
Airflow остается самым популярным инструментом, когда командам необходимо выбрать решение для оркестрации с открытым исходным кодом. Но его часто настраивают неправильно.
Вот несколько распространенных ошибок, которые допускают команды DevOps и Data при развертывании Airflow.
Airflow остается самым популярным инструментом, когда командам необходимо выбрать решение для оркестрации с открытым исходным кодом. Но его часто настраивают неправильно.
Вот несколько распространенных ошибок, которые допускают команды DevOps и Data при развертывании Airflow.
Telegram
DE
Airflow остаётся самым популярным инструментом для оркестрации дата-пайплайнов с открытым исходным кодом. Но его часто используют неправильно.
По ссылке несколько распространённых ошибок, которые допускают команды DevOps и DE при развёртывании Airflow.
По ссылке несколько распространённых ошибок, которые допускают команды DevOps и DE при развёртывании Airflow.
Data & IT Career
И 2й, пока что тоже почти непререкаемый король ETL - #dbt! 👑 На «Апрельском бигдатнике sql-ninja» будет много по него. В тч от самого известного мне эксперта по нему со своим тг-каналом - Артемия Козыря. https://t.me/data_apps/383
Telegram
Data Events
Организаторы, отвергнув прочие коммерческие схемы, предложили анонс ивента за розыгрыш двух билетов для подписчиков, так что если придумаете, как сиё устроить – пишите под пост – огранизуем! 😁😁
https://t.me/sql_ninja_news/27
Коллеги, приглашаем вас на самую…
https://t.me/sql_ninja_news/27
Коллеги, приглашаем вас на самую…