Thoughts on Apache Iceberg Summit 2026
Неделю назад в Сан-Франциско закончился Apache Iceberg Summit 2026.
Два дня саммита позволили выработать общее понимание по обсуждениям, которые доминировали в dev-рассылке всю весну.
Тема опциональности metadata.json в V4 собрала самую большую аудиторию среди всех дизайн-сессий:
эксперты подробно разобрали вопросы переносимости и последствий для статических таблиц, если корневой JSON-файл становится опциональным в случае, когда каталог управляет состоянием метаданных.
Сформировавшееся направление — признать управление метаданными со стороны каталога полноценным режимом first-class, при этом гарантии переносимости сохраняются через явную opt-in семантику, а не текущие предположения по умолчанию.
Дизайн one-file commits — направление, которое Russell Spitzer и Amogh Jahagirdar продвигали через серию предложений — движется к формальному описанию спецификации после согласования, достигнутого на саммите.
Подход заменяет списки манифестов на корневые манифесты и использует delete-векторы манифестов для поддержки коммитов в один файл, что обещает существенное снижение латентности коммитов и объёма хранимых метаданных.
Это одно из наиболее значимых изменений V4 для сценариев с высокой частотой записи, и очные обсуждения позволили закрыть оставшиеся разногласия по поводу inline против внешних delete-векторов манифестов.
Предложение Peter Vary по эффективным обновлениям колонок для AI/ML-нагрузок вызвало заметный интерес на саммите.
Дизайн ориентирован на широкие таблицы, где при каждой записи изменяется лишь подмножество колонок — embedding-векторы, скоринги моделей, значения фичей.
Это позволяет Iceberg записывать только изменённые колонки в отдельные файлы и объединять их на этапе чтения.
Для команд, управляющих feature store’ами петабайтного масштаба, экономия I/O может быть существенной.
Петер отметил, что формальное предложение с POC-бенчмарками появится в dev-рассылке в течение нескольких дней после саммита.
Политика вклада с использованием AI, в обсуждении которой участвовали Holden Karau, Kevin Liu, Steve Loughran и Sung Yun, приблизилась к практическому разрешению.
Саммит дал ту ясность, которой часто не хватает асинхронным обсуждениям, и ожидается, что рабочая версия политики — включая требования к раскрытию информации и стандарты происхождения кода для AI-сгенерированных вкладов — будет опубликована в dev-рассылке уже на этой неделе.
@tldr_data
Неделю назад в Сан-Франциско закончился Apache Iceberg Summit 2026.
Два дня саммита позволили выработать общее понимание по обсуждениям, которые доминировали в dev-рассылке всю весну.
Тема опциональности metadata.json в V4 собрала самую большую аудиторию среди всех дизайн-сессий:
эксперты подробно разобрали вопросы переносимости и последствий для статических таблиц, если корневой JSON-файл становится опциональным в случае, когда каталог управляет состоянием метаданных.
Сформировавшееся направление — признать управление метаданными со стороны каталога полноценным режимом first-class, при этом гарантии переносимости сохраняются через явную opt-in семантику, а не текущие предположения по умолчанию.
Дизайн one-file commits — направление, которое Russell Spitzer и Amogh Jahagirdar продвигали через серию предложений — движется к формальному описанию спецификации после согласования, достигнутого на саммите.
Подход заменяет списки манифестов на корневые манифесты и использует delete-векторы манифестов для поддержки коммитов в один файл, что обещает существенное снижение латентности коммитов и объёма хранимых метаданных.
Это одно из наиболее значимых изменений V4 для сценариев с высокой частотой записи, и очные обсуждения позволили закрыть оставшиеся разногласия по поводу inline против внешних delete-векторов манифестов.
Предложение Peter Vary по эффективным обновлениям колонок для AI/ML-нагрузок вызвало заметный интерес на саммите.
Дизайн ориентирован на широкие таблицы, где при каждой записи изменяется лишь подмножество колонок — embedding-векторы, скоринги моделей, значения фичей.
Это позволяет Iceberg записывать только изменённые колонки в отдельные файлы и объединять их на этапе чтения.
Для команд, управляющих feature store’ами петабайтного масштаба, экономия I/O может быть существенной.
Петер отметил, что формальное предложение с POC-бенчмарками появится в dev-рассылке в течение нескольких дней после саммита.
Политика вклада с использованием AI, в обсуждении которой участвовали Holden Karau, Kevin Liu, Steve Loughran и Sung Yun, приблизилась к практическому разрешению.
Саммит дал ту ясность, которой часто не хватает асинхронным обсуждениям, и ожидается, что рабочая версия политики — включая требования к раскрытию информации и стандарты происхождения кода для AI-сгенерированных вкладов — будет опубликована в dev-рассылке уже на этой неделе.
@tldr_data
👍2
Polars in Aggregate: Streaming Expands, Lakehouse I/O, and Cloud Profiling
Последний цикл релизов Polars приближает стриминговый движок к использованию по умолчанию за счёт расширения поддержки: теперь доступны streaming merge join, as-of join, а также потоковые чтения и записи (scan/sink) для CSV, NDJSON, IPC и облачных источников.
Также добавлена нативная поддержка roundtrip-операций с Delta Lake и Iceberg, включая прямую ленивую запись (lazy writes) обратно в Delta и функцию sink_iceberg() для построения готовых к коммиту стриминговых пайплайнов.
В Polars Cloud теперь доступен профайлинг запросов с метриками на каждом этапе выполнения: CPU, RAM, сеть и shuffle.
@tldr_data
Последний цикл релизов Polars приближает стриминговый движок к использованию по умолчанию за счёт расширения поддержки: теперь доступны streaming merge join, as-of join, а также потоковые чтения и записи (scan/sink) для CSV, NDJSON, IPC и облачных источников.
Также добавлена нативная поддержка roundtrip-операций с Delta Lake и Iceberg, включая прямую ленивую запись (lazy writes) обратно в Delta и функцию sink_iceberg() для построения готовых к коммиту стриминговых пайплайнов.
В Polars Cloud теперь доступен профайлинг запросов с метриками на каждом этапе выполнения: CPU, RAM, сеть и shuffle.
@tldr_data
pola.rs
Polars in Aggregate: Streaming Expands, Lakehouse I/O, and Cloud Profiling
DataFrames for the new era
👍1
PgQue – PgQ, universal edition
PgQue — это реализация архитектуры PgQ на чистом PL/pgSQL, предоставляющая высокопроизводительную очередь без разрастания (bloat) для любого экземпляра Postgres 14+.
Вместо погони за минимальной задержкой акцент сделан на стабильности и надёжности: используются пакетная обработка на основе snapshot’ов и ротация таблиц, что позволяет избежать типичной деградации производительности и раздувания таблиц, характерных для очередей, реализованных внутри базы данных.
@tldr_data
PgQue — это реализация архитектуры PgQ на чистом PL/pgSQL, предоставляющая высокопроизводительную очередь без разрастания (bloat) для любого экземпляра Postgres 14+.
Вместо погони за минимальной задержкой акцент сделан на стабильности и надёжности: используются пакетная обработка на основе snapshot’ов и ротация таблиц, что позволяет избежать типичной деградации производительности и раздувания таблиц, характерных для очередей, реализованных внутри базы данных.
@tldr_data
GitHub
GitHub - NikolayS/PgQue: PgQue – Zero-bloat Postgres queue built on top of on battle-proven Skype's PgQ. One SQL file to install…
PgQue – Zero-bloat Postgres queue built on top of on battle-proven Skype's PgQ. One SQL file to install, pg_cron to tick. - NikolayS/PgQue
👍2
Анонс для Airflow: новые возможности интеграции AI
Появился новый провайдер Common AI Provider, который добавляет поддержку LLM и агентных сценариев непосредственно в Apache Airflow.
Он построен на Pydantic AI и поддерживает более 20 провайдеров моделей, включая OpenAI, Anthropic, Google, Azure, Bedrock и Ollama.
Новые декораторы
Toolsets
В дополнение к декораторам добавлены toolsets — наборы инструментов, которые агент использует для взаимодействия с внешними системами во время выполнения.
SQLToolset предоставляет read-only доступ к SQL-базам. HookToolset позволяет превращать Airflow Hooks в инструменты агента. MCPToolset подключает агента к MCP-серверу через Airflow connection. DataFusionToolset дает возможность выполнять SQL-запросы по файлам Parquet, CSV и Iceberg без отдельной базы данных. LoggingToolset добавляет логирование всех вызовов инструментов с замером времени выполнения.
@tldr_data
Появился новый провайдер Common AI Provider, который добавляет поддержку LLM и агентных сценариев непосредственно в Apache Airflow.
Он построен на Pydantic AI и поддерживает более 20 провайдеров моделей, включая OpenAI, Anthropic, Google, Azure, Bedrock и Ollama.
Новые декораторы
@task.llm — отправка prompt в LLM с возвратом текстового или структурированного результата@task.agent — запуск автономного агента с инструментами, памятью и многошаговым reasoning@task.llm_branch — делегирование выбора downstream-задач модели@task.llm_sql — преобразование естественного языка в валидный SQL-запрос@task.llm_file_analysis — анализ файлов из object storage (текст, изображения, PDF) с помощью LLM@task.llm_schema_compare — выявление schema drift между базами данных с использованием LLM-рассужденийToolsets
В дополнение к декораторам добавлены toolsets — наборы инструментов, которые агент использует для взаимодействия с внешними системами во время выполнения.
SQLToolset предоставляет read-only доступ к SQL-базам. HookToolset позволяет превращать Airflow Hooks в инструменты агента. MCPToolset подключает агента к MCP-серверу через Airflow connection. DataFusionToolset дает возможность выполнять SQL-запросы по файлам Parquet, CSV и Iceberg без отдельной базы данных. LoggingToolset добавляет логирование всех вызовов инструментов с замером времени выполнения.
@tldr_data
👍1
Designing Data-intensive Applications with Martin Kleppmann
Как изменились фундаментальные подходы к построению распределённых систем за последнее десятилетие?
Martin Kleppmann, автор культовой книги Designing Data-Intensive Applications (2017), выпустил в этом месяце второе, существенно обновлённое издание.
В обсуждении он делится тем, как эволюционировали требования и практики построения систем.
Ниже — три ключевых тезиса из разговора:
1. Multi-region и multi-cloud — это не best practice, а компромисс
По мнению Клеппмана, не существует универсального правильного ответа, стоит ли использовать multi-region или multi-cloud архитектуру. Это всегда компромисс между рисками и затратами. Решение должно приниматься на уровне бизнеса, а задача инженеров — уметь чётко формулировать эти trade-offs, а не следовать догмам.
2. Репликация важнее шардинга для большинства команд
Хотя в книге подробно разбирается шардирование, сегодня его необходимость снизилась благодаря развитию облаков. Современные машины стали мощнее, и многие нагрузки помещаются в пределах одного узла.
В результате:
шардирование становится более нишевой, специализированной задачей,
а репликация для обеспечения отказоустойчивости остаётся критически важной практически на любом масштабе.
3. Понимание внутренних механизмов систем — конкурентное преимущество
Книга изначально не задумывалась как руководство для разработчиков баз данных или инфраструктуры.
Однако глубокое понимание внутренних механизмов систем даёт разработчикам приложений важное преимущество:
помогает принимать более обоснованные архитектурные решения,
упрощает диагностику проблем с производительностью,
формирует инженерную интуицию, которая становится критичной по мере роста системы.
В целом, за последние годы акцент сместился с жёстких архитектурных паттернов к осознанному выбору компромиссов, где инженерия тесно связана с бизнес-контекстом.
@tldr_data
Как изменились фундаментальные подходы к построению распределённых систем за последнее десятилетие?
Martin Kleppmann, автор культовой книги Designing Data-Intensive Applications (2017), выпустил в этом месяце второе, существенно обновлённое издание.
В обсуждении он делится тем, как эволюционировали требования и практики построения систем.
Ниже — три ключевых тезиса из разговора:
1. Multi-region и multi-cloud — это не best practice, а компромисс
По мнению Клеппмана, не существует универсального правильного ответа, стоит ли использовать multi-region или multi-cloud архитектуру. Это всегда компромисс между рисками и затратами. Решение должно приниматься на уровне бизнеса, а задача инженеров — уметь чётко формулировать эти trade-offs, а не следовать догмам.
2. Репликация важнее шардинга для большинства команд
Хотя в книге подробно разбирается шардирование, сегодня его необходимость снизилась благодаря развитию облаков. Современные машины стали мощнее, и многие нагрузки помещаются в пределах одного узла.
В результате:
шардирование становится более нишевой, специализированной задачей,
а репликация для обеспечения отказоустойчивости остаётся критически важной практически на любом масштабе.
3. Понимание внутренних механизмов систем — конкурентное преимущество
Книга изначально не задумывалась как руководство для разработчиков баз данных или инфраструктуры.
Однако глубокое понимание внутренних механизмов систем даёт разработчикам приложений важное преимущество:
помогает принимать более обоснованные архитектурные решения,
упрощает диагностику проблем с производительностью,
формирует инженерную интуицию, которая становится критичной по мере роста системы.
В целом, за последние годы акцент сместился с жёстких архитектурных паттернов к осознанному выбору компромиссов, где инженерия тесно связана с бизнес-контекстом.
@tldr_data
YouTube
Designing Data-intensive Applications with Martin Kleppmann
Martin Kleppmann is a researcher and the author of Designing Data-Intensive Applications, one of the most influential books on modern distributed systems. As of this month, the second, heavily updated edition of the book is out.
In this episode of Pragmatic…
In this episode of Pragmatic…
🔥2
Floe: SQL-сервис для современного data lakehouse
Floe — SQL-сервис, спроектированный для современных lakehouse-архитектур.
Он объединяет три ключевых компонента:
Floe появился как ответ на фрагментацию современного lakehouse-стека — разные форматы таблиц, каталоги и query-движки часто плохо сочетаются между собой.
Объединяя высокопроизводительное выполнение запросов, единый доступ к метаданным и файловую индексацию, Floe переносит проверенные архитектурные подходы в открытую data-экосистему.
Результат, более быстрый и консистентный аналитический доступ к данным в lakehouse-среде.
♾️ YouTube♾️
@tldr_data
Floe — SQL-сервис, спроектированный для современных lakehouse-архитектур.
Он объединяет три ключевых компонента:
FloeSQL — вычислительный движок для выполнения сложных SQL-запросов поверх открытых табличных форматовFloecat — open-source каталог каталогов, который объединяет метаданные из экосистем Apache Iceberg и Delta LakeFloescan — сервис индексации, обеспечивающий точечное пропускание данных (data skipping) внутри файлов Apache ParquetFloe появился как ответ на фрагментацию современного lakehouse-стека — разные форматы таблиц, каталоги и query-движки часто плохо сочетаются между собой.
Объединяя высокопроизводительное выполнение запросов, единый доступ к метаданным и файловую индексацию, Floe переносит проверенные архитектурные подходы в открытую data-экосистему.
Результат, более быстрый и консистентный аналитический доступ к данным в lakehouse-среде.
@tldr_data
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Floe: A SQL Compute Service for the Data Lakehouse (Kurt Westerfeld + Mark Cusack)
CMU-DB Group Meeting
Speakers: Kurt Westerfeld (https://www.linkedin.com/in/kurt-westerfeld) + Mark Cusack (https://www.linkedin.com/in/macusack)
April 14, 2026
https://db.cs.cmu.edu/events/floe-a-sql-query-service-for-the-data-lakehouse-kurt-westerfeld…
Speakers: Kurt Westerfeld (https://www.linkedin.com/in/kurt-westerfeld) + Mark Cusack (https://www.linkedin.com/in/macusack)
April 14, 2026
https://db.cs.cmu.edu/events/floe-a-sql-query-service-for-the-data-lakehouse-kurt-westerfeld…
🔥1
dbt-score — линтер для качества метаданных в dbt
dbt-score — это инструмент для оценки качества метаданных в проектах dbt.
Он анализирует модели и проекты по набору правил (документация, тесты, ownership, нейминг, сложность SQL), позволяя командам внедрять стандарты через CI/CD и выявлять проблемные модели на ранних этапах. Поддерживаются кастомные правила для учета внутренних требований и governance-политик.
Ключевые возможности
•
Проверяет dbt-объекты по настраиваемым правилам: документация, тесты, структура, нейминг
•
Присваивает числовые оценки (0–10) как отдельным моделям, так и проекту в целом
•
Настройка правил, уровней строгости и порогов оценки через pyproject.toml
•
Возможность падать сборке при несоответствии стандартам качества
•
Визуальные бейджи и метрики для мониторинга улучшения качества данных со временем
•
Возможность создавать собственные правила под требования конкретной организации
@tldr_data
dbt-score — это инструмент для оценки качества метаданных в проектах dbt.
Он анализирует модели и проекты по набору правил (документация, тесты, ownership, нейминг, сложность SQL), позволяя командам внедрять стандарты через CI/CD и выявлять проблемные модели на ранних этапах. Поддерживаются кастомные правила для учета внутренних требований и governance-политик.
Ключевые возможности
•
Комплексный линтингПроверяет dbt-объекты по настраиваемым правилам: документация, тесты, структура, нейминг
•
Система скорингаПрисваивает числовые оценки (0–10) как отдельным моделям, так и проекту в целом
•
Гибкая конфигурацияНастройка правил, уровней строгости и порогов оценки через pyproject.toml
•
Интеграция с CI/CDВозможность падать сборке при несоответствии стандартам качества
•
Отслеживание прогрессаВизуальные бейджи и метрики для мониторинга улучшения качества данных со временем
•
РасширяемостьВозможность создавать собственные правила под требования конкретной организации
@tldr_data
GitHub
GitHub - PicnicSupermarket/dbt-score: Linter for dbt metadata
Linter for dbt metadata. Contribute to PicnicSupermarket/dbt-score development by creating an account on GitHub.
🔥1
Rocky — это инструмент на базе Rust, который добавляет управляющий слой поверх хранилищ данных, помогая командам управлять пайплайнами с помощью таких возможностей, как контракты данных, отслеживание происхождения данных (lineage) и безопасное тестирование через ветки.
Он нацелен на раннее выявление ошибок, предотвращение проблем с данными и делает дата-процессы более надежными и понятными.
@tldr_data
Он нацелен на раннее выявление ошибок, предотвращение проблем с данными и делает дата-процессы более надежными и понятными.
@tldr_data
GitHub
GitHub - rocky-data/rocky: Rust SQL transformation engine with branches, replay, column-level lineage, compile-time type safety…
Rust SQL transformation engine with branches, replay, column-level lineage, compile-time type safety, and per-model cost attribution. Single static binary; adapters for Databricks, Snowflake, BigQu...
👍1
В Python-пакет elementary-data, имеющий 1.1 млн загрузок в месяц, внедрён вредоносный код
https://www.opennet.ru/opennews/art.shtml?num=65313
@tldr_data
https://www.opennet.ru/opennews/art.shtml?num=65313
@tldr_data
🔥1
Очередь за self-hosting: Docker, YAML, ночные падения пайплайнов и ручной дебаг.
Рядом managed-сервис: платишь $20–100 в месяц, нажимаешь deploy и всё работает.
В первом случае экономишь деньги.
Во втором часы жизни.
Self-hosting редко бесплатный.
Просто счёт приходит не в долларах, а в потраченном времени.
@tldr_data
Рядом managed-сервис: платишь $20–100 в месяц, нажимаешь deploy и всё работает.
В первом случае экономишь деньги.
Во втором часы жизни.
Self-hosting редко бесплатный.
Просто счёт приходит не в долларах, а в потраченном времени.
@tldr_data
👍3
Новый поток курса LLM Zoomcamp стартует 8 июня 2026 года. Присоединяйтесь к бесплатному курсу и пройдите путь от основ LLM до готового к продакшену AI-ассистента за 10 недель.
Алексей Григорьев, автор курса, обновит весь контент для этого потока во время своих онлайн-воркшопов.
Вы изучите Retrieval-Augmented Generation, векторный поиск, эмбеддинги, AI-агентов, function calling, оценку (evaluation), мониторинг, гибридный поиск, переранжирование и многое другое.
@tldr_data
Алексей Григорьев, автор курса, обновит весь контент для этого потока во время своих онлайн-воркшопов.
Вы изучите Retrieval-Augmented Generation, векторный поиск, эмбеддинги, AI-агентов, function calling, оценку (evaluation), мониторинг, гибридный поиск, переранжирование и многое другое.
@tldr_data
🔥1
From IDEs to AI Agents with Steve Yegge
Работа с поддержкой ИИ может иметь вампирский эффект. Steve Yegge — о том, насколько изматывающей может быть работа с ИИ и почему рабочий день стоит сокращать, чтобы это компенсировать:
Ответ: вам придётся, иначе сломается уже ваша компания.
Подробнее в подкасте The Pragmatic Engineer.
@tldr_data
Работа с поддержкой ИИ может иметь вампирский эффект. Steve Yegge — о том, насколько изматывающей может быть работа с ИИ и почему рабочий день стоит сокращать, чтобы это компенсировать:
С ИИ происходит своего рода вампирский эффект: он тебя воодушевляет, ты работаешь очень интенсивно и создаёшь огромное количество ценности.
Я, например, делаю это для себя, и всё равно чувствую, что работаю на пределе. Ловлю себя на том, что днём приходится спать, и друзья из стартапов говорят, что у них то же самое — они тоже начали спать днём.»
«Мы начинаем уставать, становимся раздражительными.
Компании устроены так, чтобы извлекать из тебя ценность и платить за это. Но исторически они всегда были устроены одинаково: тебе будут давать всё больше работы, пока ты не сломаешься. Если ты справляешься — тебе с радостью дадут ещё, пока твоя “тарелка” не переполнится и ты не выгоришь окончательно.
Возможно, от человека можно получить максимум три продуктивных часа в день на пике “вайб-кодинга”, но при этом он всё равно будет в сто раз продуктивнее, чем без ИИ. Так что — позволите ли вы людям работать по три часа в день?
Ответ: вам придётся, иначе сломается уже ваша компания.
Подробнее в подкасте The Pragmatic Engineer.
@tldr_data
Pragmaticengineer
From IDEs to AI Agents with Steve Yegge
Steve Yegge on how AI is reshaping software engineering, the rise of “vibe coding,” and why developers must adapt to a rapidly changing craft.
👍1
Firn
Firn — это open-source API для быстрого векторного и полнотекстового поиска по данным, хранящимся в S3. Он использует Lance и кэширование, чтобы делать повторные запросы очень быстрыми. Подходит командам, которым нужен поиск по object storage без затрат и сложности, связанных с запуском OpenSearch.
@tldr_data
Firn — это open-source API для быстрого векторного и полнотекстового поиска по данным, хранящимся в S3. Он использует Lance и кэширование, чтобы делать повторные запросы очень быстрыми. Подходит командам, которым нужен поиск по object storage без затрат и сложности, связанных с запуском OpenSearch.
@tldr_data
GitHub
GitHub - gordonmurray/firnflow: The cost efficiency of S3 with the speed of local RAM. A multi-tenant vector and full-text search…
The cost efficiency of S3 with the speed of local RAM. A multi-tenant vector and full-text search engine featuring a tiered RAM → NVMe → S3 architecture for microsecond latency on top of object s...
👍1
Rosetta DBT Studio — open-source десктопный workspace для команд, работающих с dbt.
Новый AI Agent — это не просто обёртка над чат-ботом. Это tool-loop engine, который умеет:
📂 Просматривать директории проекта и читать schema-файлы, чтобы понимать реальный контекст
✍️ Писать SQL и YAML для dbt-моделей напрямую в ваш проект
▶️ Запускать dbt-команды (compile, run, test) и читать логи
📑 Автоматически открывать каждый созданный файл в новой вкладке редактора, чтобы вы могли сразу всё проверить
Безопасность прежде всего: Agent никогда не запускает terminal-команду без того, чтобы сначала показать вам, что именно он собирается выполнить, и дождаться явного Allow или Deny. Никаких сюрпризов.
Расширяемость:
Skills Library — импортируйте skills в формате Markdown с GitHub, чтобы обучить агент вашим внутренним практикам и соглашениям команды
MCP Servers — встроенная поддержка Rosetta CLI, dbt Core, DuckDB и DuckLake
Поддержка моделей: OpenAI, Anthropic, Gemini и Ollama (локальные модели) — через Vercel AI SDK.
🎬 Полный обзор: YouTube walkthrough
📥 Скачать (macOS, Windows, Linux): Rosetta DBT Studio Download
⭐ GitHub: Rosetta DBT Studio GitHub
@tldr_data
Новый AI Agent — это не просто обёртка над чат-ботом. Это tool-loop engine, который умеет:
📂 Просматривать директории проекта и читать schema-файлы, чтобы понимать реальный контекст
✍️ Писать SQL и YAML для dbt-моделей напрямую в ваш проект
▶️ Запускать dbt-команды (compile, run, test) и читать логи
📑 Автоматически открывать каждый созданный файл в новой вкладке редактора, чтобы вы могли сразу всё проверить
Безопасность прежде всего: Agent никогда не запускает terminal-команду без того, чтобы сначала показать вам, что именно он собирается выполнить, и дождаться явного Allow или Deny. Никаких сюрпризов.
Расширяемость:
Skills Library — импортируйте skills в формате Markdown с GitHub, чтобы обучить агент вашим внутренним практикам и соглашениям команды
MCP Servers — встроенная поддержка Rosetta CLI, dbt Core, DuckDB и DuckLake
Поддержка моделей: OpenAI, Anthropic, Gemini и Ollama (локальные модели) — через Vercel AI SDK.
🎬 Полный обзор: YouTube walkthrough
📥 Скачать (macOS, Windows, Linux): Rosetta DBT Studio Download
⭐ GitHub: Rosetta DBT Studio GitHub
@tldr_data
YouTube
Rosetta DBT Studio — Meet the AI Agent: Your Autonomous dbt Engineer
Stop copy-pasting AI suggestions. The AI Agent in Rosetta DBT Studio doesn't just chat — it reads your project, writes your models, and runs your dbt commands. All inside one secure, extensible desktop workspace.
🔍 Topics covered in this video:
• What makes…
🔍 Topics covered in this video:
• What makes…
👍1
Prefect 3.7.0
В последнем релизе Prefect 3.7.0: команда углубляет интеграцию с uv от Astral.
Поскольку uv продолжает задавать направление для следующего поколения управления Python-пакетами, Prefect развивается вместе с ним: теперь лучше поддерживаются uv workspaces и установка зависимостей через файлы pyproject.toml.
Ключевая часть этого улучшения — Prefect теперь заранее проверяет, что перед запуском flow есть всё необходимое.
Благодаря этому проекты на uv работают стабильнее — от локальной разработки до production.
Для команд, которые стандартизируют стек вокруг uv, это делает Prefect более естественной частью процесса разработки: собирайте проект современным Python-способом, а затем оркестрируйте его без дополнительных костылей для управления зависимостями.
Это ещё один шаг к тому, чтобы Prefect органично вписывался в инструменты, которые Python-команды уже выбирают для своей работы.
@tldr_data
В последнем релизе Prefect 3.7.0: команда углубляет интеграцию с uv от Astral.
Поскольку uv продолжает задавать направление для следующего поколения управления Python-пакетами, Prefect развивается вместе с ним: теперь лучше поддерживаются uv workspaces и установка зависимостей через файлы pyproject.toml.
Ключевая часть этого улучшения — Prefect теперь заранее проверяет, что перед запуском flow есть всё необходимое.
Благодаря этому проекты на uv работают стабильнее — от локальной разработки до production.
Для команд, которые стандартизируют стек вокруг uv, это делает Prefect более естественной частью процесса разработки: собирайте проект современным Python-способом, а затем оркестрируйте его без дополнительных костылей для управления зависимостями.
Это ещё один шаг к тому, чтобы Prefect органично вписывался в инструменты, которые Python-команды уже выбирают для своей работы.
@tldr_data
Prefect
3.7 - Prefect
👍1
Flowfile — это визуальный ETL-инструмент, построенный вокруг Polars. Позволяет проектировать пайплайны на drag-and-drop canvas или описывать их на Python через API, похожий на Polars.
Визуальные workflow можно экспортировать в самостоятельный Python/Polars-код, что помогает избежать классического lock-in, характерного для low-code платформ.
Также в системе есть каталог на базе Delta, SQL-редактор, scheduler, параметры и изолированные Python kernels.
@tldr_data
Визуальные workflow можно экспортировать в самостоятельный Python/Polars-код, что помогает избежать классического lock-in, характерного для low-code платформ.
Также в системе есть каталог на базе Delta, SQL-редактор, scheduler, параметры и изолированные Python kernels.
@tldr_data
GitHub
GitHub - Edwardvaneechoud/Flowfile: Flowfile is a visual ETL tool and Python library combining drag-and-drop workflows with Polars…
Flowfile is a visual ETL tool and Python library combining drag-and-drop workflows with Polars dataframes. Build data pipelines visually, define flows programmatically with a Polars-like API, and e...
👍1
Data Landscape — это интерактивная карта открытых стандартов, лежащих в основе современной архитектуры данных: контракты данных, схемы, семантика, файловые и табличные форматы, перемещение данных, обработка, каталоги, lineage, query-движки, качество данных, observability, политики и AI-интерфейсы.
@tldr_data
@tldr_data
Data Landscape
Data Landscape — Open Standards for Modern Data Architecture
An opinionated, interactive map of the open standards that power a modern data architecture. Curated by Entropy Data.
👍2
Xorq — это open-source compute catalog для AI.
Он помогает командам каталогизировать, собирать, переиспользовать и наблюдать трансформации, фичи, модели и пайплайны между разными compute-движками.
Если проводить аналогию: Apache Iceberg стандартизировал данные. Xorq пытается стандартизировать compute.
Так же команда Xorq сделали — Porq.
Это интеграция для coding-агента pi.dev.
Интеграция дает структурированный доступ к заранее подготовленным и проверенным data expressions из каталога xorq.
Вместо загрузки сырых CSV и попыток угадать join’ы, агент использует уже каталогизированные expressions — и за счет этого выдает заметно более качественный результат.
@tldr_data
Он помогает командам каталогизировать, собирать, переиспользовать и наблюдать трансформации, фичи, модели и пайплайны между разными compute-движками.
Если проводить аналогию: Apache Iceberg стандартизировал данные. Xorq пытается стандартизировать compute.
Так же команда Xorq сделали — Porq.
Это интеграция для coding-агента pi.dev.
Интеграция дает структурированный доступ к заранее подготовленным и проверенным data expressions из каталога xorq.
Вместо загрузки сырых CSV и попыток угадать join’ы, агент использует уже каталогизированные expressions — и за счет этого выдает заметно более качественный результат.
@tldr_data
GitHub
GitHub - xorq-labs/porq: xorq semantic catalog integration for pi.dev — dramatically improve data engineering and ML tasks with…
xorq semantic catalog integration for pi.dev — dramatically improve data engineering and ML tasks with pre-computed, cataloged expressions - xorq-labs/porq
👍1
Я давно слежу за Alexander Noonan.
Еще с его времен в Dagster.
Мне всегда нравилось, как он объяснял новые фичи. Без ощущения, что тебе читают маркетинговый лендинг. Просто нормальный инженерный разбор того, как и зачем это работает. Многие вещи в Dagster я в свое время понял именно через его видео и посты.
Сейчас Alexander перешел в dbt Labs.
И, кажется, это очень хороший мэтч.
Недавно он написал про отчет 2026 State of Analytics Engineering. Там есть цифра, которая хорошо описывает то, что сейчас происходит почти во всех data-командах.
72% команд используют AI в первую очередь для генерации кода.
И только 24% — для тестирования, observability и управления пайплайнами.
Получается довольно знакомая история. Генерировать стало сильно быстрее. Проверять — почти нет.
SQL, dbt models, DAG-и и пайплайны теперь появляются быстрее, чем команды успевают разбираться, что именно уехало в production. А потом все удивляются hallucinated data, странным метрикам и потерянному доверию со стороны бизнеса.
И проблема тут даже не в AI.
Data-команды годами откладывали validation, ownership, lineage, тесты и monitoring «на потом». Просто раньше скорость изменений была ниже, и это не так бросалось в глаза. Теперь AI резко увеличил throughput, а процессы проверки остались примерно на том же уровне.
Мне кажется, ближайшие несколько лет будут не про кто быстрее пишет код через LLM. Скорее про то, кто сможет нормально масштабировать reliability вокруг этого кода.
Тесты, observability, документация, feedback loops — это постепенно становится не дополнительной инженерной культурой, а базовой частью платформы.
@tldr_data
Еще с его времен в Dagster.
Мне всегда нравилось, как он объяснял новые фичи. Без ощущения, что тебе читают маркетинговый лендинг. Просто нормальный инженерный разбор того, как и зачем это работает. Многие вещи в Dagster я в свое время понял именно через его видео и посты.
Сейчас Alexander перешел в dbt Labs.
И, кажется, это очень хороший мэтч.
Недавно он написал про отчет 2026 State of Analytics Engineering. Там есть цифра, которая хорошо описывает то, что сейчас происходит почти во всех data-командах.
72% команд используют AI в первую очередь для генерации кода.
И только 24% — для тестирования, observability и управления пайплайнами.
Получается довольно знакомая история. Генерировать стало сильно быстрее. Проверять — почти нет.
SQL, dbt models, DAG-и и пайплайны теперь появляются быстрее, чем команды успевают разбираться, что именно уехало в production. А потом все удивляются hallucinated data, странным метрикам и потерянному доверию со стороны бизнеса.
И проблема тут даже не в AI.
Data-команды годами откладывали validation, ownership, lineage, тесты и monitoring «на потом». Просто раньше скорость изменений была ниже, и это не так бросалось в глаза. Теперь AI резко увеличил throughput, а процессы проверки остались примерно на том же уровне.
Мне кажется, ближайшие несколько лет будут не про кто быстрее пишет код через LLM. Скорее про то, кто сможет нормально масштабировать reliability вокруг этого кода.
Тесты, observability, документация, feedback loops — это постепенно становится не дополнительной инженерной культурой, а базовой частью платформы.
@tldr_data
dbt Labs
2026 State of Analytics Engineering Report | dbt Labs
New research: AI is scaling analytics output faster than governance can follow. Download the 2026 State of Analytics Engineering Report.
🔥1