Дата-инженерия в 2024 году находится на пороге значительных изменений, движимых стремительным развитием ИИ и облачных технологий. В этом году основной акцент делается на интеграцию AI и ML в каждую часть технологического стека, что позволяет автоматизировать анализ данных и повышать их надежность. Также наблюдается массовый переход к облачным платформам, которые обеспечивают масштабируемость и гибкость для обработки больших объемов данных, что становится критическим фактором для компаний, стремящихся оставаться конкурентоспособными.
Ключевые тренды включают использование архитектур Data Mesh для децентрализованного управления данными, активное внедрение Apache Iceberg для обработки больших наборов данных, а также расширение возможностей наблюдаемости данных, что становится важным для поддержания надежности ИИ-продуктов. В совокупности эти тренды определяют будущее дата-инженерии, где данные становятся полноценным продуктом, а команды по работе с данными все больше похожи на программные команды.
Не упусти возможность быть в авангарде этих изменений — будущее уже здесь!
#de #dev #dataengineering
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥7
Сегодня выкатили новую версия Apache Airflow — 2.10.0
В релизе много полезных изменений и фиксов, а также новых фич:
@skip_if
и @run_if
с помощью которых ты можешь удобно задать условия запуска или пропуска Task`аtry_number
больше не увеличивается во время выполнения Task`а[usage_data_collection]enabled=False
или переменную окружения SCARF_ANALYTICS=false
Полный список изменений смотри тут или тут.
#airflow #de #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
Don't queue runs on DatasetEvent for disabled DAGs by uranusjr · Pull Request #38891 · apache/airflow
Maybe fix #38826?
This adds an additional filter on consuming DAG, and only create a DatasetDagRunQueue entry if the DAG is both active (i.e. still exists in a DAG file) and unpaused.
There are sti...
This adds an additional filter on consuming DAG, and only create a DatasetDagRunQueue entry if the DAG is both active (i.e. still exists in a DAG file) and unpaused.
There are sti...
1 19
Forwarded from Хитрый Питон
Вышел новый большой релиз менеджера пакетов
- теперь
- появилась возможность ставить нужную версию питона с помощью
- появилась возможность запускать с помощью
- возможность запускать скрипты содержащие в файле зависимости (inline script metadata https://packaging.python.org/en/latest/specifications/inline-script-metadata/#inline-script-metadata). При этом он автоматически создаст виртуальное окружение и поставит зависимости туда, а если указанной в зависимостях версии питона нет в система - сам установит ее
В общем выглядит как еще один большой шаг к тому, чтобы заменить другие тулы - https://astral.sh/blog/uv-unified-python-packaging
uv
в котором добавили много нового:- теперь
uv
может создавать более сложные файлы зависимостей и самое главное - они теперь кроссплатформенные. Например, если файл создавался, скажем, на маке он будет содержать также хеши для версий пакетов для Linux и Windows и также пакеты, которые нужны только доя конкретной платформы буду указаны и установлены только для нее. Они говорят, что формат файла standart complient но я не совсем понял на какой именно стандарт они тут ссылаются- появилась возможность ставить нужную версию питона с помощью
uv
- появилась возможность запускать с помощью
uv
другие консольные команды по аналогии с pipx
, например uvx ruff check
- возможность запускать скрипты содержащие в файле зависимости (inline script metadata https://packaging.python.org/en/latest/specifications/inline-script-metadata/#inline-script-metadata). При этом он автоматически создаст виртуальное окружение и поставит зависимости туда, а если указанной в зависимостях версии питона нет в система - сам установит ее
В общем выглядит как еще один большой шаг к тому, чтобы заменить другие тулы - https://astral.sh/blog/uv-unified-python-packaging
astral.sh
uv: Unified Python packaging
Manage entire Python projects and even Python itself with a single unified tool.
На изображении показан процесс, который является визуальной метафорой на основе популярной песни Михаила Шуфутинского "Третье сентября". Этот процесс можно интерпретировать как ETL-процесс в дата инженерии, если рассматривать его с точки зрения последовательных шагов обработки данных:
1️⃣ Извлечение (Extract): "Календарь" и "Фото твоё" — это источники данных.
2️⃣ Трансформация (Transform): Шаги, включающие "Я календарь переверну" и "На фото я твоё взгляну", можно рассматривать как этапы обработки данных.
3️⃣ Загрузка (Load): Результатом является "План дальнейших действий", что можно интерпретировать как целевой набор данных.
🔘 Идемпотентность
Идемпотентность подразумевает, что повторное выполнение одного и того же процесса не изменяет результат. В данном контексте, если процесс повторяется каждый год, и результат всегда одинаков ("Третье сентября" каждый год), можно сказать, что процесс идемпотентен.
🔘 Логические ошибки
С точки зрения логики ETL, основной вопрос возникает с условием:
✖️ Если каждый год мы переворачиваем календарь и смотрим на фото, и снова наступает третье сентября, то это выглядит как бесконечный цикл. Это может быть проблемой с точки зрения времени выполнения и целевого состояния данных.
✖️ Условие, где говорится "Ведь было всё у нас вчера" (если сравнивать с 2 сентября), похоже на попытку логической проверки, но нет явного указания, что происходит, если проверка не пройдена.
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
Итак, в данной схеме отсутствует четкая логическая развязка, которая позволила бы избежать бесконечных повторений или учесть ошибки. Это не совсем обычная ситуация для стандартного ETL-процесса, где такие аспекты должны быть четко определены.
Следовательно, несмотря на творческую интерпретацию процесса как ETL, для практического применения в дата инженерии потребовалось бы уточнение и исправление логических ошибок, связанных с итерациями и условиями.
#ai #chatgpt #meme #шуфутинский #de #etl
Идемпотентность подразумевает, что повторное выполнение одного и того же процесса не изменяет результат. В данном контексте, если процесс повторяется каждый год, и результат всегда одинаков ("Третье сентября" каждый год), можно сказать, что процесс идемпотентен.
С точки зрения логики ETL, основной вопрос возникает с условием:
Итак, в данной схеме отсутствует четкая логическая развязка, которая позволила бы избежать бесконечных повторений или учесть ошибки. Это не совсем обычная ситуация для стандартного ETL-процесса, где такие аспекты должны быть четко определены.
Следовательно, несмотря на творческую интерпретацию процесса как ETL, для практического применения в дата инженерии потребовалось бы уточнение и исправление логических ошибок, связанных с итерациями и условиями.
#ai #chatgpt #meme #шуфутинский #de #etl
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13
This media is not supported in your browser
VIEW IN TELEGRAM
Задача трёх тел — это классическая проблема в небесной механике, заключающаяся в предсказании движения трёх небесных тел, взаимодействующих друг с другом гравитационно. В отличие от задачи двух тел, которая имеет аналитическое решение, задача трёх тел гораздо сложнее и, как правило, не имеет простого аналитического решения. Однако для некоторых начальных условий возможно найти периодические решения, когда все три тела возвращаются к своим исходным позициям и скоростям после некоторого периода времени.
Гифка показывает 20 таких периодических решений задачи трёх тел. Эти решения были найдены среди множества других возможных траекторий, которые могли бы быть хаотичными или непредсказуемыми. Периодические решения являются уникальными, так как они показывают, как три тела могут двигаться в сложных, но предсказуемых паттернах, не сталкиваясь и не улетая бесконечно далеко друг от друга.
В данной гифке:
Такие визуализации помогают учёным лучше понять динамику многотелых систем, что имеет важные приложения в астрономии и физике, включая предсказание орбит планет, спутников и астероидов.
#three_body_problem #3_body_problem
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤🔥8 5
Задача трёх тел показывает, как сложно всё может быть, когда несколько объектов взаимодействуют друг с другом. В ETL-пайплайнах данные из разных источников тоже взаимодействуют и проходят через сложные процессы, прежде чем попасть в хранилище.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Николай Хитров | Блог
Есть только моя архитектура и ваши неправильные [Запись]
Вышла запись моего доклада с Pycon этого года. Немного накидал на вентилятор про популярные подходы в архитектуре и откуда они вообще появились. Enjoy🍿
https://youtu.be/bpNVX9GCIWI?si=G9-HoyrrjwLnF9mk
Вышла запись моего доклада с Pycon этого года. Немного накидал на вентилятор про популярные подходы в архитектуре и откуда они вообще появились. Enjoy🍿
https://youtu.be/bpNVX9GCIWI?si=G9-HoyrrjwLnF9mk
YouTube
Николай Хитров. Есть только моя архитектура и ваши неправильные
Николай Хитров
Точка
Есть только моя архитектура и ваши неправильные
Разработчики постоянно спорят о том, как правильно проектировать приложения. Они разделяются на клубы по интересам, где каждый восхваляет свой единственно верный умный подход. И если джависты…
Точка
Есть только моя архитектура и ваши неправильные
Разработчики постоянно спорят о том, как правильно проектировать приложения. Они разделяются на клубы по интересам, где каждый восхваляет свой единственно верный умный подход. И если джависты…
1 8😁2
Forwarded from Николай Хитров | Блог
Николай Хитров | Блог
Есть только моя архитектура и ваши неправильные [Запись] Вышла запись моего доклада с Pycon этого года. Немного накидал на вентилятор про популярные подходы в архитектуре и откуда они вообще появились. Enjoy🍿 https://youtu.be/bpNVX9GCIWI?si=G9-HoyrrjwLnF9mk
Pycon 2024.pdf
4.2 MB
Презентация к докладу
1 8❤🔥2😁1
Forwarded from О разработке и не только
Мне иногда приходится прикинуться местным жителем Нидерландов или США, чтобы получить доступ к определённым сайтам; или получить терминал на незнакомой машине (привет, универ). В общем, так или иначе интересны сервисы, которые дают ресурсы в кратковременное пользование. И я нашёл несколько вариантов:
- [cloudshell от Google](https://cloud.google.com/shell) - 4xCPU, 16Gb, 20min
- [terminator от Aeza](https://terminator.aeza.net/ru/) - 4xCPU, 4Gb, 15min, без регистрации
Если у кого-то есть ещё варианты, накидайте, пожалуйста.
- [cloudshell от Google](https://cloud.google.com/shell) - 4xCPU, 16Gb, 20min
- [terminator от Aeza](https://terminator.aeza.net/ru/) - 4xCPU, 4Gb, 15min, без регистрации
Если у кого-то есть ещё варианты, накидайте, пожалуйста.
Google Cloud
Cloud Shell documentation | Google Cloud
Command-line access to Cloud projects and resources.
❤🔥8