Data & IT Career
887 subscribers
728 photos
36 videos
14 files
1.21K links
Download Telegram
https://t.me/data_days/271
#Dagster #vs #Airflow

И отдельно поворчу про манеру автора ставить ссылки. С одной стороны клёво, что их прям много, видно что он их собирал со всего интернета и аккуратно складывал в нужную папочку, чтобы вставить в релевантный абзац.

С другой: ставить ссылки на рандомные слова в предложение — моветон. В двух случаях это ссылки на статьи на Медиуме, потом ссылка на вырезку в ютубе или вообще Тикток. Страшно неудобно, особенно с мобилы.

Отдельно зашёл с компа и протыкал все ссылки. Мемчики с тиктоками оставил в авторском оригинале, а отдельно собрал ссылки на всякие статьи-заметки:

- Moving past Airflow: Why Dagster is the next-generation data orchestrator
- Why Not Airflow?
- The Unbundling of Airflow
- Airflow's Problem
- Data plane activation
- Either-or decisions
- The powder keg of the modern data stack
- The data OS
- Data Traffic Control with Apache Airflow
- (Re)Introducing Prefect: The Global Coordination Plane
Forwarded from DE
Что такое Apache Airflow

Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.

🔑 Ключевые особенности

- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.

💻 Использование

Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.

🚀 С чего начать?

Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.

Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/

#airflow #etl #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
The State of Data Engineering (но не в РФ). Часть 1.

Когда я выступал какое-то время назад на TechTrain, я делал опрос по поводу технологий/стека и языков, используемых у нас в сфере. Но опрос был сугубо на РФ аудиторию. Наткнулся тут у одного из популярных блоггеров на похожый опрос и решил посмотреть результаты. Результаты в большей степени релевантны для американского рынка, ~400 человек ответило, подавляющее большинство именно определяют себя как Data Engineer.

Смотрим картинки, мои комментарии, как всегда, особо и не нужны, и так все очевидно:

- Ходуб умер. Для аналитических платформ лидирует #BQ, затем #Snowflake, #Redshift и #Databricks. И это там, где была выбрана только одна платформа. У 41% респондентов >1 аналитической платформы.

- #Airflow или самоделка. Все остальные оркестраторы проигрывают очень много. Еще интересный пункт None, это видимо кто-то руками или по крону запускает 🤪

- Проблема найма. Ну тут ничего удивительного, найти нормального инженера все также сложно, вне зависимости от лейофов.

Там еще 2 части с ответами есть, до них доберемся на неделе.

Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part

@ohmydataengineer #survey #DE
https://t.me/ohmydataengineer/318
Data & IT Career
#Собесы… (надо было такой #тег сделать, то каждый раз ищу, какие там сделал.. #interview #techinterview 😅) Я, на самом деле, не особо согласен с обоими авторами, но почитать (и пописАть под пост) и посмотреть доклад (сам пересматривать буду)) с размышлениями…
Как раз о "проблеме времени билда" (в конце 5-го абзаца в моём посте реплайнутом) вышло у учителя по ведению канала:
https://t.me/rockyourdata/4215 ->
https://t.me/roma_reporting/562

#Яндекс, кстати, в защиту своих задач по лавкодингу и указывает на этот скилл в этом разрезе, насколько я помню, в одной из своих статей про алгособесы - типа, проверяет возможность написать код без ошибок при отсутствии возможности отладки (возможность запустить его), так как запустить код и сразу увидеть результат в работе на практике иногда недостижимая роскошь. Поищу статью...
#todo

На самом деле, у меня на текущей задаче прям эта же проблема: деплой изменений по DAGам #airflow (в нём я новичок) занимает минут 5-7, которые приходится ждать, чтобы увидеть в airglow UI очередную (обычно глупую)) ошибку, py-скрипты DAG'ов на этом сервере руками не поправить (нет прав), локальное окружение на ноуте непонятно пока, как настроить (там много всего нужно) и реально ли вообще... Буду разбираться (с окружением выглядит сложно, а вот наличие прав на свою папку ДАГов выглядело бы в самый раз), а пока приходится развивать скилл многозадачности, чтобы каждые 5-7 минут возвращаться к этой задаче не теряя при этом контекст (вот эти вот графики из статьи выравнивать по сути))

источник графиков: https://t.me/roma_reporting/562?comment=1892
Forwarded from DataEng
Airflow 2.7.0

Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0

Из новых фишечек:

Setup and Teardown tasks
Cluster Activity UI
OpenLineage built-in integration

Улучшения:
— Убрали поддержку Python 3.7
В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду airflow db migrate

Полный список можно посмотреть тут.
The state of Apache Airflow

Компания #astronomer подготовила отчет о состоянии apache airflow на 2024 год.

#Airflow продемонстрировал огромный рост в 2023 году: его загрузили более 165 миллионов раз (+67% по сравнению с прошлым годом). В настоящее время Airflow опережает Spark и Kafka по росту сообщества, и 92% пользователей заявили, что рекомендуют его.

источник: https://t. me/data_engi/308 https://t.me/datawhisper/244 #theStateOf #y2024 #dataexplorers
Data & IT Career
Но не пугаемся, и не забываем, что по факту в 99% используется 1% всего этого добра (вот такой перекошенный Паретто… ну может не 1/99 - не считал, ну уж точно не 20/80 😁) Так что не стоит пугаться всего этого многообразия, а главное - учить мейнстрим, коего…
https://t.me/dataexplorers/252 #Airflow

Airflow остается самым популярным инструментом, когда командам необходимо выбрать решение для оркестрации с открытым исходным кодом. Но его часто настраивают неправильно.

Вот
несколько распространенных ошибок, которые допускают команды DevOps и Data при развертывании Airflow.