Если хотели поиграться с trino iceberg и minio, тот вот репозиторий с docker compose настройками.
Можно провалиться в кишки таблицы iceberg на s3, ну и посмотреть на логику работы trino в ui.
Для развертывания трино необходим новый тип CPU, не везде может запуститься. Но в крайнем случае можно VPS арендовать на время 😉
https://github.com/ivanshamaev/trino-iceberg-minio
#trino #iceberg #minio
Можно провалиться в кишки таблицы iceberg на s3, ну и посмотреть на логику работы trino в ui.
Для развертывания трино необходим новый тип CPU, не везде может запуститься. Но в крайнем случае можно VPS арендовать на время 😉
https://github.com/ivanshamaev/trino-iceberg-minio
#trino #iceberg #minio
GitHub
GitHub - ivanshamaev/trino-iceberg-minio: Тестовый проект по Trino + Iceberg + Rest Catalog + Minio s3
Тестовый проект по Trino + Iceberg + Rest Catalog + Minio s3 - ivanshamaev/trino-iceberg-minio
🔥30❤4👍4
Оптимизация запросов в Trino
Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект.
https://ivan-shamaev.ru/trino-query-optimizer/
Также на днях вышел перевод книги Trino. Анализ больших данных.
Первая глава и оглавление доступны для просмотра
#trino #iceberg
Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект.
https://ivan-shamaev.ru/trino-query-optimizer/
Также на днях вышел перевод книги Trino. Анализ больших данных.
Первая глава и оглавление доступны для просмотра
#trino #iceberg
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Оптимизация запросов в Trino. Обзор функциональности и настроек
Оптимизация запросов в Trino. Обзор функциональности и настроек. Перевод документации по улучшению производительности sql запросов в трино
🔥20👍7❤1
Как устроена работа Iceberg на примере Trino и Rest Catalog?
Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java.
В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку).
Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog.
https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/
#Trino #Iceberg #RestCatalog #Java
Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java.
В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку).
Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog.
https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/
#Trino #Iceberg #RestCatalog #Java
🔥11❤2👍2👀2
Trino vs Starrocks.pdf
1 MB
Обзор Trino vs Starrocks
Кажется, что Trino выигрывает по популярности, как единый SQL инструмент под разные источники данных и возможность их объединить (Federated queries). Еще в Трино имеется фича по динамическому расширению воркеров и Velox на C++.
На одном из meetup команда Авито говорила, что в Starrocks плохо обстоят дела с ограничениями по ресурсам на query. То есть может случиться, что несколько запросов заберут все ресурсы и кластер может "упасть" (возможно ошибаюсь в пересказе). Может быть уже это пофиксили в новых версиях. В трино похожая ситуация может быть, если включить FTE Task mode, то может закончиться память.
Еще в Starrocks при рестарте загружаются заново детальные Iceberg statistics.
Пока по обзорам Starrocks выглядит лучше, но вероятно есть детали. Нужно иметь ввиду, что у Trino ОЧЕНЬ много различных настроек и конфигураций. Взять тот же FTE (aka spills). Поэтому только по одним графикам сложно утверждать однозначно, что Starrocks лучше.
Не воспринимайте этот пост как рекомендацию 😇
Кажется, что Trino выигрывает по популярности, как единый SQL инструмент под разные источники данных и возможность их объединить (Federated queries). Еще в Трино имеется фича по динамическому расширению воркеров и Velox на C++.
На одном из meetup команда Авито говорила, что в Starrocks плохо обстоят дела с ограничениями по ресурсам на query. То есть может случиться, что несколько запросов заберут все ресурсы и кластер может "упасть" (возможно ошибаюсь в пересказе). Может быть уже это пофиксили в новых версиях. В трино похожая ситуация может быть, если включить FTE Task mode, то может закончиться память.
Еще в Starrocks при рестарте загружаются заново детальные Iceberg statistics.
Пока по обзорам Starrocks выглядит лучше, но вероятно есть детали. Нужно иметь ввиду, что у Trino ОЧЕНЬ много различных настроек и конфигураций. Взять тот же FTE (aka spills). Поэтому только по одним графикам сложно утверждать однозначно, что Starrocks лучше.
Не воспринимайте этот пост как рекомендацию 😇
👍11
deruiter_Astronomer_Final.pdf
28 MB
Data Pipelines with Apache Airflow
Orchestration for Data and AI Second Edition 2026
Второе издание (скачено с сайта astronomer бесплатно)
Orchestration for Data and AI Second Edition 2026
Второе издание (скачено с сайта astronomer бесплатно)
🔥17👍4
ClickHouse выпустил agent-skills
Agent Skills — это открытый стандарт для расширения возможностей ИИ-агентов с помощью модулей, которые дают им доменные знания, инструкции и повторяемые процедуры без необходимости дообучения модели.
По сути это набор лучших практик работы с ClickHouse: как правильно проектировать схемы, оптимизировать запросы и настраивать загрузку данных. Далее эти skills подключаются в AI редактор, например, Copilot, Claude Code, Cursor.
GitHub - ClickHouse/agent-skills: The official Agent Skills for ClickHouse and ClickHouse Cloud
https://github.com/ClickHouse/agent-skills
Agent Skills — это открытый стандарт для расширения возможностей ИИ-агентов с помощью модулей, которые дают им доменные знания, инструкции и повторяемые процедуры без необходимости дообучения модели.
По сути это набор лучших практик работы с ClickHouse: как правильно проектировать схемы, оптимизировать запросы и настраивать загрузку данных. Далее эти skills подключаются в AI редактор, например, Copilot, Claude Code, Cursor.
GitHub - ClickHouse/agent-skills: The official Agent Skills for ClickHouse and ClickHouse Cloud
https://github.com/ClickHouse/agent-skills
GitHub
GitHub - ClickHouse/agent-skills: The official Agent Skills for ClickHouse and ClickHouse Cloud
The official Agent Skills for ClickHouse and ClickHouse Cloud - ClickHouse/agent-skills
🔥17❤8👍4
Data-команды должны стать командами контекста
Context engineering = управление данными + инженерия данных + наука о данных.
Понравилась статья, закинул перевод на сайт. На мой взгляд, content engineering может стать как отдельным ответвлением профессии (здесь и аналитика, и бизнес-процессы, более быстрое получение ответов на вопросы). С другой стороны дата команды могут трансформироваться в нечто большее.
Всё зависит от ваших экспериментов и открытости к технологиям. Главное держать баланс хайпа и реальной пользой для бизнеса.
https://datatalks.ru/context-engineering-data-teams/
Context engineering = управление данными + инженерия данных + наука о данных.
Понравилась статья, закинул перевод на сайт. На мой взгляд, content engineering может стать как отдельным ответвлением профессии (здесь и аналитика, и бизнес-процессы, более быстрое получение ответов на вопросы). С другой стороны дата команды могут трансформироваться в нечто большее.
Всё зависит от ваших экспериментов и открытости к технологиям. Главное держать баланс хайпа и реальной пользой для бизнеса.
https://datatalks.ru/context-engineering-data-teams/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Context engineering = data governance + data engineering + data science
Context engineering = data governance + data engineering + data science. Data-команды должны стать командами контекста.
👌10👍3
🚀 Airflow: пример Mapped Tasks + Trigger DAG
В Apache Airflow есть две фичи:
👉 Mapped Tasks - динамическое создание набора тасок с разными параметрами
👉 Trigger DAG - запуск одного DAG из другого с передачей параметров
Я собрал небольшой demo-пример, который показывает, как эти механики можно использовать вместе.
1️⃣ Первый DAG — Orchestrator
Реализованы Mapped Tasks. Каждая mapped-таска:
▫️ получает свой параметр
▫️ триггерит второй DAG
Выполнение идёт последовательно (одна mapped-таска за другой). По сути — это контроллер, который запускает отдельный pipeline для каждого входного значения.
2️⃣ Второй DAG — Worker
▫️ Принимает параметр из первого DAG
▫️ Подставляет его в SQL-запрос
▫️ Выполняет запрос в PostgreSQL
Также сгенерирована документация по этим двум дагам и есть минимум теории по этим двум темам (с оглядкой на эти два дага):
🔸 Airflow Mapped Tasks Tutorial
🔸 Airflow Trigger Dag Tutorial
🔗 Ссылка на даги и доку: trigger_example
⏬⏬⏬
В репозитории также можно найти
В Apache Airflow есть две фичи:
👉 Mapped Tasks - динамическое создание набора тасок с разными параметрами
👉 Trigger DAG - запуск одного DAG из другого с передачей параметров
Я собрал небольшой demo-пример, который показывает, как эти механики можно использовать вместе.
1️⃣ Первый DAG — Orchestrator
Реализованы Mapped Tasks. Каждая mapped-таска:
▫️ получает свой параметр
▫️ триггерит второй DAG
Выполнение идёт последовательно (одна mapped-таска за другой). По сути — это контроллер, который запускает отдельный pipeline для каждого входного значения.
2️⃣ Второй DAG — Worker
▫️ Принимает параметр из первого DAG
▫️ Подставляет его в SQL-запрос
▫️ Выполняет запрос в PostgreSQL
Также сгенерирована документация по этим двум дагам и есть минимум теории по этим двум темам (с оглядкой на эти два дага):
🔸 Airflow Mapped Tasks Tutorial
🔸 Airflow Trigger Dag Tutorial
🔗 Ссылка на даги и доку: trigger_example
⏬⏬⏬
В репозитории также можно найти
docker-compose.yml, для запуска этих примеров.GitHub
data-tools/airflow/demo/dags/trigger_example at main · ivanshamaev/data-tools
PostgreSQL, Docker, Apache Airlfow, ClickHouse, Superset и другие инструменты - ivanshamaev/data-tools
🔥18👍1
Forwarded from Басов про стартапы
Подборка сайтов со скиллами для ИИ-агентов — можно научить своего бота абсолютно всему без исключения:
• skills.sh
• skillhub.club
• skillsmp.com
Сохраняем.
• skills.sh
• skillhub.club
• skillsmp.com
Сохраняем.
👍12❤1
GitHub Agentic Workflows are now in technical preview - GitHub Changelog
GitHub выпустил прикольную фичу, которая по сути даёт вам суперсилу "DevOps" для работы с CI/CD.
Теперь достаточно написать то, что вы хотите получить в формате Markdown, а агент сам сделает всю работу.
https://github.blog/changelog/2026-02-13-github-agentic-workflows-are-now-in-technical-preview/
GitHub выпустил прикольную фичу, которая по сути даёт вам суперсилу "DevOps" для работы с CI/CD.
Теперь достаточно написать то, что вы хотите получить в формате Markdown, а агент сам сделает всю работу.
https://github.blog/changelog/2026-02-13-github-agentic-workflows-are-now-in-technical-preview/
The GitHub Blog
GitHub Agentic Workflows are now in technical preview - GitHub Changelog
GitHub Agentic Workflows let you automate repository tasks using AI agents that run within GitHub Actions. Write workflows in plain Markdown instead of complex YAML, and let AI handle intelligent…
👍3🔥3
Запряг cursor перевести доку с сайта astronomer. Детально не читал, но вроде получилось хорошо.
https://github.com/ivanshamaev/airflow-docs репозиторий недоступен
Update: прикрутил страничку https://datatalks.ru/airflow-docs/ (страничка переехала)
Update: прикрутил страничку https://datatalks.ru/airflow-docs/ (страничка переехала)
👍28🏆8🔥3🤝1👾1
Полное руководство по созданию Skills для Claude
Перевод guide от Anthropic
https://fkonovalov.github.io/claude-skills-guide-ru/
Перевод guide от Anthropic
https://fkonovalov.github.io/claude-skills-guide-ru/
fkonovalov.github.io
Полное руководство по созданию Skills для Claude
Русский перевод официального гайда Anthropic по Skills для Claude AI
👍17🔥4❤1👏1💯1
Привет 👋🏻
Документация airflow с github pages переехала на новый адрес https://datatalks.ru/airflow-docs/.
А по Trino тоже появилась заготовка https://datatalks.ru/trino-docs/ (пока висит английская версия, чтобы без vpn смотреть)
Документация airflow с github pages переехала на новый адрес https://datatalks.ru/airflow-docs/.
А по Trino тоже появилась заготовка https://datatalks.ru/trino-docs/ (пока висит английская версия, чтобы без vpn смотреть)
🔥19👍6👏1
AI Agent Engineer Roadmap
Некоторое время назад начал накидывать через claude импровизационный roadmap по разработке ai agents. Исходная цель: быстро вникнуть в особенности и архитектуру решений для применения в работе. В целом уже что-то можно почитать и изучить.
По проектам пока не уверен, что именно будет (и будет ли).
https://datatalks.ru/ai-agents/
Некоторое время назад начал накидывать через claude импровизационный roadmap по разработке ai agents. Исходная цель: быстро вникнуть в особенности и архитектуру решений для применения в работе. В целом уже что-то можно почитать и изучить.
По проектам пока не уверен, что именно будет (и будет ли).
https://datatalks.ru/ai-agents/
❤11🔥9👏1
🤖 opencode: Учимся создавать виртуальные команды из агентов для Data-проектов 🚀
Делюсь небольшой инструкцией по OpenCode — инструменту, который можно использовать не просто как CLI, а как полноценный слой настройки проекта для работы с агентами, ролями, правилами и workflow 👇
За основу я взял демо-пример, где OpenCode + ChatGPT использовались для создания проекта с аналитическим стеком.
Сразу оговорюсь: в самом проекте не было четкой постановки задачи 🎯 Делал быстрые наброски, чтобы понять как настраивать opencode и какая у него структура.
Что попало в инструкцию:
✨ как правильно оформить проект
✨ где и что писать
✨ как задавать правила для агента
✨ как подключать роли, skills и спецификации
✨ как сделать так, чтобы агент работал не “с нуля”, а в контексте вашей команды
Что оказалось особенно ценным 💡
OpenCode становится по-настоящему полезным, когда воспринимаешь его не как “чатик в терминале”, а как часть инженерной инфраструктуры проекта.
То есть важно не только запустить tool, но и продумать:
📌
📌
📌
📌
📌
В итоге получается интересный подход:
можно собирать “виртуальную команду” из агентов под data-проект — например, выделять роли аналитика, архитектора, infra-инженера, а также задавать им понятные зоны ответственности 🧩
Мне кажется, это особенно полезно тем, кто хочет:
— структурировать AI-работу в репозитории
— выстроить понятные правила для агентов
— сделать процесс воспроизводимым для команды
— использовать AI не только для генерации кода, но и для организации инженерного процесса ⚙️📊
Делюсь небольшой инструкцией по OpenCode — инструменту, который можно использовать не просто как CLI, а как полноценный слой настройки проекта для работы с агентами, ролями, правилами и workflow 👇
За основу я взял демо-пример, где OpenCode + ChatGPT использовались для создания проекта с аналитическим стеком.
Сразу оговорюсь: в самом проекте не было четкой постановки задачи 🎯 Делал быстрые наброски, чтобы понять как настраивать opencode и какая у него структура.
Что попало в инструкцию:
✨ как правильно оформить проект
✨ где и что писать
✨ как задавать правила для агента
✨ как подключать роли, skills и спецификации
✨ как сделать так, чтобы агент работал не “с нуля”, а в контексте вашей команды
Что оказалось особенно ценным 💡
OpenCode становится по-настоящему полезным, когда воспринимаешь его не как “чатик в терминале”, а как часть инженерной инфраструктуры проекта.
То есть важно не только запустить tool, но и продумать:
📌
AGENTS.md — как проектный контракт📌
opencode.json — как control plane для правил, инструментов и разрешений📌
.opencode/agents/ — для role-based subagents📌
.opencode/skills/ — для повторяемых playbooks📌
docs/specs/ — для устойчивых спецификаций, на которые может опираться агентВ итоге получается интересный подход:
можно собирать “виртуальную команду” из агентов под data-проект — например, выделять роли аналитика, архитектора, infra-инженера, а также задавать им понятные зоны ответственности 🧩
Мне кажется, это особенно полезно тем, кто хочет:
— структурировать AI-работу в репозитории
— выстроить понятные правила для агентов
— сделать процесс воспроизводимым для команды
— использовать AI не только для генерации кода, но и для организации инженерного процесса ⚙️📊
👍11🔥6🤝4❤1
Готов проект по 2 модулю AI Agents — research-agent
Репозиторий: https://github.com/ivanshamaev/research-agent
Изначальная цель заключалась в том, чтобы на простом примере пройти весь цикл взаимодействия: как оркестратор общается с LLM, как агент выбирает инструменты, как возвращаются результаты вызовов, где хранится состояние и в какой момент всё это собирается в итоговый отчёт.
В процессе реализации исходный описанный концепт во 2 модуле изменился. Плюс вместо 1-2 двух llm моделей добавились open-source варианты. И самое важное - добавил gatellm.ru, на котором и протестировался (не реклама, первое что попалось со стартовым балансом на тест).
В итоге получился CLI-агент, который:
- ищет материалы по теме,
- загружает и обрабатывает страницы,
- суммаризирует найденное,
- собирает результат в структурированный markdown-отчёт с источниками (здесь пока что бага, на днях доработаю).
В проекте есть подробная документация со схемами. Для тех, кто хочет разобраться в том, как создать свой агент - welcome:
- как выглядит ReAct-цикл на практике,
- зачем нужен tool registry,
- где проходит граница между orchestration и tools,
- и т.д.
Агент написан и отлажен за 1 час с помощью claude code (с учетом переделки части модулей и поиска api llm для тестов).
👉🏻 В репозитории есть docs, в которых разложена реализация.
Репозиторий: https://github.com/ivanshamaev/research-agent
Изначальная цель заключалась в том, чтобы на простом примере пройти весь цикл взаимодействия: как оркестратор общается с LLM, как агент выбирает инструменты, как возвращаются результаты вызовов, где хранится состояние и в какой момент всё это собирается в итоговый отчёт.
В процессе реализации исходный описанный концепт во 2 модуле изменился. Плюс вместо 1-2 двух llm моделей добавились open-source варианты. И самое важное - добавил gatellm.ru, на котором и протестировался (не реклама, первое что попалось со стартовым балансом на тест).
В итоге получился CLI-агент, который:
- ищет материалы по теме,
- загружает и обрабатывает страницы,
- суммаризирует найденное,
- собирает результат в структурированный markdown-отчёт с источниками (здесь пока что бага, на днях доработаю).
В проекте есть подробная документация со схемами. Для тех, кто хочет разобраться в том, как создать свой агент - welcome:
- как выглядит ReAct-цикл на практике,
- зачем нужен tool registry,
- где проходит граница между orchestration и tools,
- и т.д.
Агент написан и отлажен за 1 час с помощью claude code (с учетом переделки части модулей и поиска api llm для тестов).
👉🏻 В репозитории есть docs, в которых разложена реализация.
GitHub
GitHub - ivanshamaev/research-agent: Research Agent: Автономный CLI-агент для исследования тем, реализует паттерн ReAct (Reason…
Research Agent: Автономный CLI-агент для исследования тем, реализует паттерн ReAct (Reason + Act). - ivanshamaev/research-agent
👍13👏2🤝1
Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion) / Хабр
В статье описаны базовые сценарии работы, архитектурные особенности и переход движка на rust.
https://habr.com/ru/articles/1021290/
В статье описаны базовые сценарии работы, архитектурные особенности и переход движка на rust.
https://habr.com/ru/articles/1021290/
Хабр
Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)
TL;DR Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисление фичей между...
👀4👏3❤1