Подборка статей по Apache Airflow:
🔸 Airflow DAGs, ч.1 — Основы и расписания
🔸 Airflow DAGs, ч.2 — Операторы и Датчики
🔸 Airflow DAGs, ч.3 — Проектирование DAG
🔸 Внедрение Airflow для управления Spark-джобами в ivi: надежды и костыли
🔸 Airflow vs NiFi: исследуем оркестратор для формирования витрин данных
🔸 Airflow DAGs, ч.1 — Основы и расписания
🔸 Airflow DAGs, ч.2 — Операторы и Датчики
🔸 Airflow DAGs, ч.3 — Проектирование DAG
🔸 Внедрение Airflow для управления Spark-джобами в ivi: надежды и костыли
🔸 Airflow vs NiFi: исследуем оркестратор для формирования витрин данных
🔥4👍2
An Overview of the End-to-End Machine Learning Workflow
In this section, we provide a high-level overview of a typical workflow for machine learning-based software development. Generally, the goal of a machine learning project is to build a statistical model by using collected data and applying machine learning algorithms to them. Therefore, every ML-based software includes three main artifacts: Data, ML Model, and Code. Corresponding to these artifacts, the typical machine learning workflow consists of three main phases:
🔹Data Engineering: data acquisition & data preparation,
🔹ML Model Engineering: ML model training & serving, and
🔹Code Engineering: integrating ML model into the final product.
In this section, we provide a high-level overview of a typical workflow for machine learning-based software development. Generally, the goal of a machine learning project is to build a statistical model by using collected data and applying machine learning algorithms to them. Therefore, every ML-based software includes three main artifacts: Data, ML Model, and Code. Corresponding to these artifacts, the typical machine learning workflow consists of three main phases:
🔹Data Engineering: data acquisition & data preparation,
🔹ML Model Engineering: ML model training & serving, and
🔹Code Engineering: integrating ML model into the final product.
Обработка данных на Apache Airflow в Yandex Cloud
https://www.youtube.com/live/jF3YemOVofQ?si=zLFx_416vByV3za9
https://www.youtube.com/live/jF3YemOVofQ?si=zLFx_416vByV3za9
YouTube
Обработка данных на Apache Airflow в Yandex Cloud
Для анализа данных в облаке не достаточно СУБД и средств визуализации — нужен ещё и понятный инструмент, который автоматизирует сбор, подготовку и обработку данных. На вебинаре мы расскали о таком сервисе — Apache Airflow.
Эксперты Yandex Cloud обсудили:…
Эксперты Yandex Cloud обсудили:…
GitHub - ripienaar/free-for-dev: A list of SaaS, PaaS and IaaS offerings that have free tiers of interest to devops and infradev
https://github.com/ripienaar/free-for-dev
Free for Developers
https://free-for.dev/
https://github.com/ripienaar/free-for-dev
Free for Developers
https://free-for.dev/
GitHub
GitHub - ripienaar/free-for-dev: A list of SaaS, PaaS and IaaS offerings that have free tiers of interest to devops and infradev
A list of SaaS, PaaS and IaaS offerings that have free tiers of interest to devops and infradev - ripienaar/free-for-dev
❤1
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов / Хабр
https://habr.com/ru/companies/cedrusdata/articles/744934/
https://habr.com/ru/companies/cedrusdata/articles/744934/
Хабр
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом...
👍2
Forwarded from DataEng
Курс про Apache Airflow бесплатно
Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
Велком!
Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
Велком!
Startdatajourney
Apache Airflow 2.2: практический курс
Практический курс по основам Apache Airflow версии 2.2 и выше
🔥7🥴2👍1
Неплохой гайд по DBT "The GitLab Handbook"
https://handbook.gitlab.com/handbook/business-technology/data-team/platform/dbt-guide/
https://handbook.gitlab.com/handbook/business-technology/data-team/platform/dbt-guide/
👍1
Курс по dbt с нуля. Занятие 1. Преимущества dbt. Запускаем dbt из docker в связке с ClickHouse
https://www.youtube.com/watch?v=fXt-VmqsVPA
https://www.youtube.com/watch?v=fXt-VmqsVPA
YouTube
Курс по dbt с нуля. Занятие 1. Преимущества dbt. Запускаем dbt из docker в связке с ClickHouse.
План занятия:
- Что такое dbt
- Преимущества dbt
- Разворачиваем ClickHouse с помощью Docker-compose
- Наполняем ClickHouse тестовыми данными
- Упаковываем dbt-clickhouse в docker контейнер
- Инициализируем проект dbt (dbt init)
- Настраиваем проект (dbt_project.yml…
- Что такое dbt
- Преимущества dbt
- Разворачиваем ClickHouse с помощью Docker-compose
- Наполняем ClickHouse тестовыми данными
- Упаковываем dbt-clickhouse в docker контейнер
- Инициализируем проект dbt (dbt init)
- Настраиваем проект (dbt_project.yml…
👍2
Курс по dbt с нуля. Занятие 2
Особенности установки на Windows.
Запуск ClickHouse в wsl 2.
https://youtu.be/wSUbJ5lUahw?si=_Q60ad9AQYk3lpQD
Особенности установки на Windows.
Запуск ClickHouse в wsl 2.
https://youtu.be/wSUbJ5lUahw?si=_Q60ad9AQYk3lpQD
YouTube
Курс по dbt с нуля. Занятие 2.2. Особенности установки на Windows. Запуск Clickhouse в wsl 2.
Домашние задания можно сдавать на странице курса по dbt: https://itempuniversity.com/course/view.php?id=684
Презентация: https://docs.google.com/presentation/d/1jLiNQOogMfUDCh0HuGmTgTq7AOEuTWBn7aAJPfSREqo/edit?usp=sharing
Если вы используете Windows, то…
Презентация: https://docs.google.com/presentation/d/1jLiNQOogMfUDCh0HuGmTgTq7AOEuTWBn7aAJPfSREqo/edit?usp=sharing
Если вы используете Windows, то…
GitHub - QuantumFluxx/karpov_courses: 🐳 Проектная деятельность. Здесь хранятся лекции, практические задания и проекты с karpov_courses.
https://github.com/QuantumFluxx/karpov_courses
https://github.com/QuantumFluxx/karpov_courses
❤3
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора / Хабр
https://habr.com/ru/companies/lamoda/articles/810705/
https://habr.com/ru/companies/lamoda/articles/810705/
Хабр
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...
Apache NiFi как доступный ETL инструмент: кейс применения + тестовый стенд Docker / Хабр
https://habr.com/ru/articles/813813/
https://habr.com/ru/articles/813813/
Хабр
Apache NiFi как доступный ETL инструмент: кейс применения + тестовый стенд Docker
Привет! Меня зовут Владимир Ходак, я работаю инженером данных в компании "ДЮК Технологии". В статье расскажу о практических аспектах использования Apache NiFi, опишу преимущества и проблемы, с...