397 subscribers
228 photos
47 videos
11 files
307 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt

Буст канала тут - https://t.me/boost/data_engi
Download Telegram
🖼️

Дата-инженерия в 2024 году находится на пороге значительных изменений, движимых стремительным развитием ИИ и облачных технологий. В этом году основной акцент делается на интеграцию AI и ML в каждую часть технологического стека, что позволяет автоматизировать анализ данных и повышать их надежность. Также наблюдается массовый переход к облачным платформам, которые обеспечивают масштабируемость и гибкость для обработки больших объемов данных, что становится критическим фактором для компаний, стремящихся оставаться конкурентоспособными.

Ключевые тренды включают использование архитектур Data Mesh для децентрализованного управления данными, активное внедрение Apache Iceberg для обработки больших наборов данных, а также расширение возможностей наблюдаемости данных, что становится важным для поддержания надежности ИИ-продуктов. В совокупности эти тренды определяют будущее дата-инженерии, где данные становятся полноценным продуктом, а команды по работе с данными все больше похожи на программные команды.

Не упусти возможность быть в авангарде этих изменений — будущее уже здесь!

#de #dev #dataengineering
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7
🖼️ Airflow 2.10.0

Сегодня выкатили новую версия Apache Airflow — 2.10.0
В релизе много полезных изменений и фиксов, а также новых фич:

▶️ декораторы @skip_if и @run_if с помощью которых ты можешь удобно задать условия запуска или пропуска Task`а

▶️ Datasets больше не запускают неактивные DAG`и

▶️ одновременное использование нескольких Executor в рамках одного DAG`а

▶️ try_number больше не увеличивается во время выполнения Task`а

▶️ Важно! Теперь Airflow по дефолту собирает телеметрию, все данные передаются в Scarf. Можешь отключить, нужно поправить конфиг [usage_data_collection]enabled=False или переменную окружения SCARF_ANALYTICS=false

Полный список изменений смотри тут или тут.

#airflow #de #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
119
Forwarded from Хитрый Питон
Вышел новый большой релиз менеджера пакетов uv в котором добавили много нового:

- теперь uv может создавать более сложные файлы зависимостей и самое главное - они теперь кроссплатформенные. Например, если файл создавался, скажем, на маке он будет содержать также хеши для версий пакетов для Linux и Windows и также пакеты, которые нужны только доя конкретной платформы буду указаны и установлены только для нее. Они говорят, что формат файла standart complient но я не совсем понял на какой именно стандарт они тут ссылаются
- появилась возможность ставить нужную версию питона с помощью uv
- появилась возможность запускать с помощью uv другие консольные команды по аналогии с pipx, например uvx ruff check
- возможность запускать скрипты содержащие в файле зависимости (inline script metadata https://packaging.python.org/en/latest/specifications/inline-script-metadata/#inline-script-metadata). При этом он автоматически создаст виртуальное окружение и поставит зависимости туда, а если указанной в зависимостях версии питона нет в система - сам установит ее

В общем выглядит как еще один большой шаг к тому, чтобы заменить другие тулы - https://astral.sh/blog/uv-unified-python-packaging
7
😁112
#визуализация
История визуализации данных (до 1904 года)
https://tableau.pro/datavizhistory
1❤‍🔥8
17😁5
На изображении показан процесс, который является визуальной метафорой на основе популярной песни Михаила Шуфутинского "Третье сентября". Этот процесс можно интерпретировать как ETL-процесс в дата инженерии, если рассматривать его с точки зрения последовательных шагов обработки данных:

1️⃣ Извлечение (Extract): "Календарь" и "Фото твоё" — это источники данных.
2️⃣ Трансформация (Transform): Шаги, включающие "Я календарь переверну" и "На фото я твоё взгляну", можно рассматривать как этапы обработки данных.
3️⃣ Загрузка (Load): Результатом является "План дальнейших действий", что можно интерпретировать как целевой набор данных.

🔘 Идемпотентность
Идемпотентность подразумевает, что повторное выполнение одного и того же процесса не изменяет результат. В данном контексте, если процесс повторяется каждый год, и результат всегда одинаков ("Третье сентября" каждый год), можно сказать, что процесс идемпотентен.

🔘 Логические ошибки
С точки зрения логики ETL, основной вопрос возникает с условием:

✖️ Если каждый год мы переворачиваем календарь и смотрим на фото, и снова наступает третье сентября, то это выглядит как бесконечный цикл. Это может быть проблемой с точки зрения времени выполнения и целевого состояния данных.
✖️ Условие, где говорится "Ведь было всё у нас вчера" (если сравнивать с 2 сентября), похоже на попытку логической проверки, но нет явного указания, что происходит, если проверка не пройдена.

〰️〰️〰️〰️〰️〰️〰️〰️

Итак, в данной схеме отсутствует четкая логическая развязка, которая позволила бы избежать бесконечных повторений или учесть ошибки. Это не совсем обычная ситуация для стандартного ETL-процесса, где такие аспекты должны быть четко определены.

Следовательно, несмотря на творческую интерпретацию процесса как ETL, для практического применения в дата инженерии потребовалось бы уточнение и исправление логических ошибок, связанных с итерациями и условиями.

#ai #chatgpt #meme #шуфутинский #de #etl
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13
This media is not supported in your browser
VIEW IN TELEGRAM
2️⃣0️⃣ найденных периодических решений задачи трёх тел

Задача трёх тел — это классическая проблема в небесной механике, заключающаяся в предсказании движения трёх небесных тел, взаимодействующих друг с другом гравитационно. В отличие от задачи двух тел, которая имеет аналитическое решение, задача трёх тел гораздо сложнее и, как правило, не имеет простого аналитического решения. Однако для некоторых начальных условий возможно найти периодические решения, когда все три тела возвращаются к своим исходным позициям и скоростям после некоторого периода времени.

Гифка показывает 20 таких периодических решений задачи трёх тел. Эти решения были найдены среди множества других возможных траекторий, которые могли бы быть хаотичными или непредсказуемыми. Периодические решения являются уникальными, так как они показывают, как три тела могут двигаться в сложных, но предсказуемых паттернах, не сталкиваясь и не улетая бесконечно далеко друг от друга.

В данной гифке:

1️⃣ Каждое решение представляет собой уникальную траекторию движения трёх тел. Тела притягиваются друг к другу гравитационными силами, что создает разнообразные орбитальные паттерны.
2️⃣ Периодичность означает, что после завершения одного полного цикла движения тела возвращаются к своим начальным условиям, повторяя тот же путь снова и снова.
3️⃣ Комплексность движений демонстрирует, как даже при относительно простых начальных условиях система может вести себя очень сложно, создавая интересные и красивые орбитальные паттерны.

Такие визуализации помогают учёным лучше понять динамику многотелых систем, что имеет важные приложения в астрономии и физике, включая предсказание орбит планет, спутников и астероидов.

#three_body_problem #3_body_problem
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥85
🪐 Задача трёх тел и ETL-пайплайны: Чему можно научиться у космоса

Задача трёх тел показывает, как сложно всё может быть, когда несколько объектов взаимодействуют друг с другом. В ETL-пайплайнах данные из разных источников тоже взаимодействуют и проходят через сложные процессы, прежде чем попасть в хранилище.

💡 Идея для дата-инженеров: Как в задаче трёх тел важно найти устойчивые орбиты, так и в ETL важно наладить надёжные и предсказуемые пути для данных. Оптимальные методы и инструменты помогут сделать процесс обработки данных стабильным и точным, даже если всё кажется запутанным.

🙂 Из забавного, на просторах телеги живёт бот 3_body_problem_bot, который генерирует симуляцию гравитационного взаимодействия трёх случайных тел каждые 12 часов.

👩‍💻 GitHub проекта.
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤‍🔥2
❤‍🔥7
11
Мне иногда приходится прикинуться местным жителем Нидерландов или США, чтобы получить доступ к определённым сайтам; или получить терминал на незнакомой машине (привет, универ). В общем, так или иначе интересны сервисы, которые дают ресурсы в кратковременное пользование. И я нашёл несколько вариантов:
- [cloudshell от Google](https://cloud.google.com/shell) - 4xCPU, 16Gb, 20min
- [terminator от Aeza](https://terminator.aeza.net/ru/) - 4xCPU, 4Gb, 15min, без регистрации

Если у кого-то есть ещё варианты, накидайте, пожалуйста.
❤‍🔥8
9😁1