Data Engineering / Инженерия данных / Data Engineer / DWH
2.56K subscribers
55 photos
7 videos
54 files
369 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Airflow / Python / ETL / dbt / Spark
AI Agents

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Если хотели поиграться с trino iceberg и minio, тот вот репозиторий с docker compose настройками.

Можно провалиться в кишки таблицы iceberg на s3, ну и посмотреть на логику работы trino в ui.

Для развертывания трино необходим новый тип CPU, не везде может запуститься. Но в крайнем случае можно VPS арендовать на время 😉

https://github.com/ivanshamaev/trino-iceberg-minio

#trino #iceberg #minio
🔥304👍4
Оптимизация запросов в Trino

Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект.

https://ivan-shamaev.ru/trino-query-optimizer/

Также на днях вышел перевод книги Trino. Анализ больших данных.

Первая глава и оглавление доступны для просмотра

#trino #iceberg
🔥20👍71
Как устроена работа Iceberg на примере Trino и Rest Catalog?

Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java.
В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку).

Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog.

https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/

#Trino #Iceberg #RestCatalog #Java
🔥112👍2👀2
Trino vs Starrocks.pdf
1 MB
Обзор Trino vs Starrocks

Кажется, что Trino выигрывает по популярности, как единый SQL инструмент под разные источники данных и возможность их объединить (Federated queries). Еще в Трино имеется фича по динамическому расширению воркеров и Velox на C++.

На одном из meetup команда Авито говорила, что в Starrocks плохо обстоят дела с ограничениями по ресурсам на query. То есть может случиться, что несколько запросов заберут все ресурсы и кластер может "упасть" (возможно ошибаюсь в пересказе). Может быть уже это пофиксили в новых версиях. В трино похожая ситуация может быть, если включить FTE Task mode, то может закончиться память.
Еще в Starrocks при рестарте загружаются заново детальные Iceberg statistics.

Пока по обзорам Starrocks выглядит лучше, но вероятно есть детали. Нужно иметь ввиду, что у Trino ОЧЕНЬ много различных настроек и конфигураций. Взять тот же FTE (aka spills). Поэтому только по одним графикам сложно утверждать однозначно, что Starrocks лучше.

Не воспринимайте этот пост как рекомендацию 😇
👍11
Настроение четверга
😁25💯8
deruiter_Astronomer_Final.pdf
28 MB
Data Pipelines with Apache Airflow
Orchestration for Data and AI Second Edition 2026

Второе издание (скачено с сайта astronomer бесплатно)
🔥17👍4
ClickHouse выпустил agent-skills

Agent Skills — это открытый стандарт для расширения возможностей ИИ-агентов с помощью модулей, которые дают им доменные знания, инструкции и повторяемые процедуры без необходимости дообучения модели.

По сути это набор лучших практик работы с ClickHouse: как правильно проектировать схемы, оптимизировать запросы и настраивать загрузку данных. Далее эти skills подключаются в AI редактор, например, Copilot, Claude Code, Cursor.

GitHub - ClickHouse/agent-skills: The official Agent Skills for ClickHouse and ClickHouse Cloud
https://github.com/ClickHouse/agent-skills
🔥178👍4
Data-команды должны стать командами контекста
Context engineering = управление данными + инженерия данных + наука о данных.

Понравилась статья, закинул перевод на сайт. На мой взгляд, content engineering может стать как отдельным ответвлением профессии (здесь и аналитика, и бизнес-процессы, более быстрое получение ответов на вопросы). С другой стороны дата команды могут трансформироваться в нечто большее.

Всё зависит от ваших экспериментов и открытости к технологиям. Главное держать баланс хайпа и реальной пользой для бизнеса.

https://datatalks.ru/context-engineering-data-teams/
👌10👍3
🚀 Airflow: пример Mapped Tasks + Trigger DAG

В Apache Airflow есть две фичи:
👉 Mapped Tasks - динамическое создание набора тасок с разными параметрами
👉 Trigger DAG - запуск одного DAG из другого с передачей параметров

Я собрал небольшой demo-пример, который показывает, как эти механики можно использовать вместе.

1️⃣ Первый DAG — Orchestrator
Реализованы Mapped Tasks. Каждая mapped-таска:
▫️ получает свой параметр
▫️ триггерит второй DAG

Выполнение идёт последовательно (одна mapped-таска за другой). По сути — это контроллер, который запускает отдельный pipeline для каждого входного значения.

2️⃣ Второй DAG — Worker
▫️ Принимает параметр из первого DAG
▫️ Подставляет его в SQL-запрос
▫️ Выполняет запрос в PostgreSQL

Также сгенерирована документация по этим двум дагам и есть минимум теории по этим двум темам (с оглядкой на эти два дага):
🔸 Airflow Mapped Tasks Tutorial
🔸 Airflow Trigger Dag Tutorial

🔗 Ссылка на даги и доку: trigger_example


В репозитории также можно найти docker-compose.yml, для запуска этих примеров.
🔥18👍1
Подборка сайтов со скиллами для ИИ-агентов — можно научить своего бота абсолютно всему без исключения:

skills.sh
skillhub.club
skillsmp.com

Сохраняем.
👍121
GitHub Agentic Workflows are now in technical preview - GitHub Changelog

GitHub выпустил прикольную фичу, которая по сути даёт вам суперсилу "DevOps" для работы с CI/CD.
Теперь достаточно написать то, что вы хотите получить в формате Markdown, а агент сам сделает всю работу.

https://github.blog/changelog/2026-02-13-github-agentic-workflows-are-now-in-technical-preview/
👍3🔥3
Запряг cursor перевести доку с сайта astronomer. Детально не читал, но вроде получилось хорошо.
https://github.com/ivanshamaev/airflow-docs репозиторий недоступен

Update: прикрутил страничку https://datatalks.ru/airflow-docs/ (страничка переехала)
👍28🏆8🔥3🤝1👾1
Привет 👋🏻
Документация airflow с github pages переехала на новый адрес https://datatalks.ru/airflow-docs/.

А по Trino тоже появилась заготовка https://datatalks.ru/trino-docs/ (пока висит английская версия, чтобы без vpn смотреть)
🔥19👍6👏1
AI Agent Engineer Roadmap

Некоторое время назад начал накидывать через claude импровизационный roadmap по разработке ai agents. Исходная цель: быстро вникнуть в особенности и архитектуру решений для применения в работе. В целом уже что-то можно почитать и изучить.

По проектам пока не уверен, что именно будет (и будет ли).

https://datatalks.ru/ai-agents/
11🔥9👏1
🤖 opencode: Учимся создавать виртуальные команды из агентов для Data-проектов 🚀

Делюсь небольшой инструкцией по OpenCode — инструменту, который можно использовать не просто как CLI, а как полноценный слой настройки проекта для работы с агентами, ролями, правилами и workflow 👇

За основу я взял демо-пример, где OpenCode + ChatGPT использовались для создания проекта с аналитическим стеком.
Сразу оговорюсь: в самом проекте не было четкой постановки задачи 🎯 Делал быстрые наброски, чтобы понять как настраивать opencode и какая у него структура.

Что попало в инструкцию:
как правильно оформить проект
где и что писать
как задавать правила для агента
как подключать роли, skills и спецификации
как сделать так, чтобы агент работал не “с нуля”, а в контексте вашей команды

Что оказалось особенно ценным 💡
OpenCode становится по-настоящему полезным, когда воспринимаешь его не как “чатик в терминале”, а как часть инженерной инфраструктуры проекта.

То есть важно не только запустить tool, но и продумать:
📌 AGENTS.md — как проектный контракт
📌 opencode.json — как control plane для правил, инструментов и разрешений
📌 .opencode/agents/ — для role-based subagents
📌 .opencode/skills/ — для повторяемых playbooks
📌 docs/specs/ — для устойчивых спецификаций, на которые может опираться агент

В итоге получается интересный подход:
можно собирать “виртуальную команду” из агентов под data-проект — например, выделять роли аналитика, архитектора, infra-инженера, а также задавать им понятные зоны ответственности 🧩

Мне кажется, это особенно полезно тем, кто хочет:
— структурировать AI-работу в репозитории
— выстроить понятные правила для агентов
— сделать процесс воспроизводимым для команды
— использовать AI не только для генерации кода, но и для организации инженерного процесса ⚙️📊
👍11🔥6🤝41
Какая же жиза)
😁12🤣8👍1👏1🤨1
Готов проект по 2 модулю AI Agents — research-agent

Репозиторий: https://github.com/ivanshamaev/research-agent

Изначальная цель заключалась в том, чтобы на простом примере пройти весь цикл взаимодействия: как оркестратор общается с LLM, как агент выбирает инструменты, как возвращаются результаты вызовов, где хранится состояние и в какой момент всё это собирается в итоговый отчёт.

В процессе реализации исходный описанный концепт во 2 модуле изменился. Плюс вместо 1-2 двух llm моделей добавились open-source варианты. И самое важное - добавил gatellm.ru, на котором и протестировался (не реклама, первое что попалось со стартовым балансом на тест).

В итоге получился CLI-агент, который:
- ищет материалы по теме,
- загружает и обрабатывает страницы,
- суммаризирует найденное,
- собирает результат в структурированный markdown-отчёт с источниками (здесь пока что бага, на днях доработаю).

В проекте есть подробная документация со схемами. Для тех, кто хочет разобраться в том, как создать свой агент - welcome:
- как выглядит ReAct-цикл на практике,
- зачем нужен tool registry,
- где проходит граница между orchestration и tools,
- и т.д.

Агент написан и отлажен за 1 час с помощью claude code (с учетом переделки части модулей и поиска api llm для тестов).

👉🏻 В репозитории есть docs, в которых разложена реализация.
👍13👏2🤝1