Вышла Graph of Thoughts — библиотека, которая ломает линейное мышление LLM
LLM-рассуждения больше не обязаны быть одной длинной цепочкой. Graph of Thoughts (GoT) — это официальная Python-реализация одноимённой статьи. Она позволяет строить графы операций и прогонять их через LLM вместо скучного последовательного промптинга.
Как работает: ты описываешь проблему как граф. Контроллер выполняет этот граф, используя LLM как движок. Можно моделировать не только GoT, но и Chain-of-Thought, Tree-of-Thought и любые гибриды.
В коробке:
- pip install graph_of_thoughts — и готово
- Примеры: сортировка, подсчёт ключевых слов, пересечение множеств, слияние документов
- Контроллер выводит полную трассировку: операции, мысли, оценки, валидность, потраченные токены и стоимость
Исходники открыты под BSD-лицензией.
https://github.com/spcl/graph-of-thoughts
👉 @DataSciencegx
LLM-рассуждения больше не обязаны быть одной длинной цепочкой. Graph of Thoughts (GoT) — это официальная Python-реализация одноимённой статьи. Она позволяет строить графы операций и прогонять их через LLM вместо скучного последовательного промптинга.
Как работает: ты описываешь проблему как граф. Контроллер выполняет этот граф, используя LLM как движок. Можно моделировать не только GoT, но и Chain-of-Thought, Tree-of-Thought и любые гибриды.
В коробке:
- pip install graph_of_thoughts — и готово
- Примеры: сортировка, подсчёт ключевых слов, пересечение множеств, слияние документов
- Контроллер выводит полную трассировку: операции, мысли, оценки, валидность, потраченные токены и стоимость
Исходники открыты под BSD-лицензией.
https://github.com/spcl/graph-of-thoughts
Please open Telegram to view this post
VIEW IN TELEGRAM
Модель на 9B параметров уделала модели в несколько раз больше.
Ребята из Ai2 и University of Washington, которые делали OLMo и Tülu, выпустили новую статью — Tmax. Называют её лучшим открытым рецептом RL-тренировки для терминальных агентов.
Результат: 9B модель набрала 27% на Terminal-Bench 2.0. Обогнала кучу моделей с намного большим числом параметров. Рецепт при этом до смешного простой — чисто outcome-based награды, без process supervision.
Самое интересное: победа не в размере модели и не в RL-алгоритме. А в том, как создавать тренировочные данные.
Они сделали таксономию для пакетной генерации терминальных окружений. Контроль сложности, персоны, разнообразие верификаторов. Всё дёшево. Получился датасет терминальных агентов в 2.5 раза больше, чем всё, что выкладывали до этого.
Отсюда вывод: способности терминальных агентов теперь кормятся окружением, а не набиваются параметрами. Кто может дёшево генерировать кучу верифицируемых задач, тот тренирует сильных агентов.
Данные, модели и код выложили в открытый доступ.
Open source догоняет frontier. И быстро сокращает дистанцию.
https://arxiv.org/abs/2606.23321
👉 @DataSciencegx
Ребята из Ai2 и University of Washington, которые делали OLMo и Tülu, выпустили новую статью — Tmax. Называют её лучшим открытым рецептом RL-тренировки для терминальных агентов.
Результат: 9B модель набрала 27% на Terminal-Bench 2.0. Обогнала кучу моделей с намного большим числом параметров. Рецепт при этом до смешного простой — чисто outcome-based награды, без process supervision.
Самое интересное: победа не в размере модели и не в RL-алгоритме. А в том, как создавать тренировочные данные.
Они сделали таксономию для пакетной генерации терминальных окружений. Контроль сложности, персоны, разнообразие верификаторов. Всё дёшево. Получился датасет терминальных агентов в 2.5 раза больше, чем всё, что выкладывали до этого.
Отсюда вывод: способности терминальных агентов теперь кормятся окружением, а не набиваются параметрами. Кто может дёшево генерировать кучу верифицируемых задач, тот тренирует сильных агентов.
Данные, модели и код выложили в открытый доступ.
Open source догоняет frontier. И быстро сокращает дистанцию.
https://arxiv.org/abs/2606.23321
Please open Telegram to view this post
VIEW IN TELEGRAM
Юрист в Манхэттене получает контракт на 500 страниц. Каждый пункт должен быть найден. Вручную — неделя.
Бухгалтер в Чикаго получает 200 отсканированных счетов. Каждая цифра должна попасть в таблицу. Вручную — четыре дня.
Исследователь из Стэнфорда получает 50 научных статей. Таблицы, формулы, графики заперты в PDF. Вручную — две недели.
Каждый из них теряет дни жизни на copy-paste.
Встречайте MinerU.
Бесплатный open-source инструмент, который читает любые PDF, Word, PowerPoint, Excel и сканы. Вытаскивает текст в порядке чтения. Таблицы превращает в чистый HTML. Уравнения — в LaTeX. Рукописный текст — тоже. 109 языков.
Даёшь 200-страничный PDF. Получаешь чистый Markdown через 90 секунд.
Чем он отличается от остальных:
- Многоколоночная вёрстка. Читает сверху вниз внутри каждой колонки, а не слева направо поперёк страницы. Как человек.
- Сканы. Встроенный OCR. Наводишь на фотку бумажного документа из 1995 — получаешь чистый текст.
- Формулы. Распознавание с качеством LaTeX. Каждое уравнение отображается правильно.
- Таблицы. Объединённые ячейки, заголовки на несколько строк, таблицы на три страницы — всё сохраняется.
- Документы на десять тысяч страниц. Скользящее окно. Без ручной разбивки.
- Пакетный режим. Закидываешь папку с 500 документами. Уходишь.
Три способа использовать:
- CLI. Одна команда на документ.
- Python SDK. Пять строк кода.
- Веб-приложение на mineru.net. Загрузил, нажал, скачал. Без установки.
Интегрируется с Claude Desktop, Cursor, Windsurf, LangChain, LlamaIndex, RAGFlow, Dify, FastGPT. Скармливаешь извлечённые документы своему AI-агенту.
История
Команда OpenDataLab из Shanghai AI Laboratory занималась извлечением текста из миллионов научных документов для тренировки языковой модели. Существующие инструменты не справлялись. Они сделали свой. Потом открыли исходники.
68 551 звезда. Лицензия MinerU Open Source License, построена на Apache 2.0. Бесплатно для личного и коммерческого использования. Три технических отчёта на arXiv.
Adobe Acrobat Pro стоит $239.88 в год. И всё равно теряет твои таблицы.
ABBYY FineReader Corporate стоит $165 в год. И всё равно не умеет формулы.
Mistral OCR стоит $2 за 1000 страниц. Счёт никогда не кончается.
MinerU стоит $0. Работает на твоём ноутбуке. Документы не покидают твою машину.
А теперь самое дикое.
Юрист получила контракт обратно через 4 минуты. Каждый пункт ищется.
Бухгалтер скормил 200 счетов. Каждая цифра попала в таблицу за 12 минут.
Исследователь загрузил 50 статей. Литературный обзор написал за воскресный вечер.
Документ, который твоя компания годами обрабатывает вручную, MinerU переваривает за минуты.
Твои документы становятся текстом. Текст данными. Данные ответами.
https://github.com/opendatalab/mineru
👉 @DataSciencegx
Бухгалтер в Чикаго получает 200 отсканированных счетов. Каждая цифра должна попасть в таблицу. Вручную — четыре дня.
Исследователь из Стэнфорда получает 50 научных статей. Таблицы, формулы, графики заперты в PDF. Вручную — две недели.
Каждый из них теряет дни жизни на copy-paste.
Встречайте MinerU.
Бесплатный open-source инструмент, который читает любые PDF, Word, PowerPoint, Excel и сканы. Вытаскивает текст в порядке чтения. Таблицы превращает в чистый HTML. Уравнения — в LaTeX. Рукописный текст — тоже. 109 языков.
Даёшь 200-страничный PDF. Получаешь чистый Markdown через 90 секунд.
Чем он отличается от остальных:
- Многоколоночная вёрстка. Читает сверху вниз внутри каждой колонки, а не слева направо поперёк страницы. Как человек.
- Сканы. Встроенный OCR. Наводишь на фотку бумажного документа из 1995 — получаешь чистый текст.
- Формулы. Распознавание с качеством LaTeX. Каждое уравнение отображается правильно.
- Таблицы. Объединённые ячейки, заголовки на несколько строк, таблицы на три страницы — всё сохраняется.
- Документы на десять тысяч страниц. Скользящее окно. Без ручной разбивки.
- Пакетный режим. Закидываешь папку с 500 документами. Уходишь.
Три способа использовать:
- CLI. Одна команда на документ.
- Python SDK. Пять строк кода.
- Веб-приложение на mineru.net. Загрузил, нажал, скачал. Без установки.
Интегрируется с Claude Desktop, Cursor, Windsurf, LangChain, LlamaIndex, RAGFlow, Dify, FastGPT. Скармливаешь извлечённые документы своему AI-агенту.
История
Команда OpenDataLab из Shanghai AI Laboratory занималась извлечением текста из миллионов научных документов для тренировки языковой модели. Существующие инструменты не справлялись. Они сделали свой. Потом открыли исходники.
68 551 звезда. Лицензия MinerU Open Source License, построена на Apache 2.0. Бесплатно для личного и коммерческого использования. Три технических отчёта на arXiv.
Adobe Acrobat Pro стоит $239.88 в год. И всё равно теряет твои таблицы.
ABBYY FineReader Corporate стоит $165 в год. И всё равно не умеет формулы.
Mistral OCR стоит $2 за 1000 страниц. Счёт никогда не кончается.
MinerU стоит $0. Работает на твоём ноутбуке. Документы не покидают твою машину.
А теперь самое дикое.
Юрист получила контракт обратно через 4 минуты. Каждый пункт ищется.
Бухгалтер скормил 200 счетов. Каждая цифра попала в таблицу за 12 минут.
Исследователь загрузил 50 статей. Литературный обзор написал за воскресный вечер.
Документ, который твоя компания годами обрабатывает вручную, MinerU переваривает за минуты.
Твои документы становятся текстом. Текст данными. Данные ответами.
https://github.com/opendatalab/mineru
Please open Telegram to view this post
VIEW IN TELEGRAM
Оказалось, Gemma 4 26B A4B MoE можно комфортно запускать на видеокарте с 8 ГБ VRAM — если правильно настроить llama.cpp.
После предыдущего поста автор получил десятки комментариев о том, что интерактивный запуск Gemma 4 26B A4B вместе с Hermes Agent на RTX 4060 8 ГБ якобы невозможен.
За последние сутки он протестировал разные конфигурации llama.cpp TurboQuant и собрал рекомендации для видеокарт уровня RTX 4060 8GB, RTX 4060 Ti, RTX 3060 Ti и RX 7600.
Главные выводы:
26B — не значит, что модели нужно 26B активных параметров. Gemma 4 использует архитектуру Mixture of Experts (MoE), поэтому во время генерации активны только 4 млрд параметров (A4B). Основную нагрузку создают KV-кэш и мультимодульный vision projector (
Флаг
Рекомендации для 8 ГБ VRAM:
Контекст 64K → GPU + q8_0 (до 25+ токенов/с).
Контекст 250K (только текст) → GPU + turbo3 (~20 токенов/с).
Контекст 250K + vision projector →
По словам автора, такой конфигурации уже хватает для локального запуска автономных Hermes-агентов, которые пишут торговых ботов, анализируют окружение и генерируют HTML-графики без обращения к облачным API.
👉 @DataSciencegx
После предыдущего поста автор получил десятки комментариев о том, что интерактивный запуск Gemma 4 26B A4B вместе с Hermes Agent на RTX 4060 8 ГБ якобы невозможен.
За последние сутки он протестировал разные конфигурации llama.cpp TurboQuant и собрал рекомендации для видеокарт уровня RTX 4060 8GB, RTX 4060 Ti, RTX 3060 Ti и RX 7600.
Главные выводы:
26B — не значит, что модели нужно 26B активных параметров. Gemma 4 использует архитектуру Mixture of Experts (MoE), поэтому во время генерации активны только 4 млрд параметров (A4B). Основную нагрузку создают KV-кэш и мультимодульный vision projector (
--mmproj), а не сама модель.Флаг
-cmoe нужен не всегда. Его стоит включать только тогда, когда модель перестает помещаться в видеопамять и система начинает использовать swap. В этом режиме неактивные эксперты переносятся в оперативную память, а GPU продолжает обрабатывать внимание, эмбеддинги и KV-кэш. По тестам автора, скорость выросла с менее чем 1 токена/с до 130 токенов/с на prefill и 20 токенов/с на decode.q8_0 или TurboQuant (turbo3)? Если видеопамяти достаточно, быстрее работает q8_0, поскольку он требует меньше вычислений при распаковке. Если VRAM становится узким местом, лучше использовать turbo3, который сильнее сжимает V-cache и позволяет удержать большие контекстные окна полностью на GPU.Рекомендации для 8 ГБ VRAM:
Контекст 64K → GPU + q8_0 (до 25+ токенов/с).
Контекст 250K (только текст) → GPU + turbo3 (~20 токенов/с).
Контекст 250K + vision projector →
-cmoe + q8_0 (~20 токенов/с).По словам автора, такой конфигурации уже хватает для локального запуска автономных Hermes-агентов, которые пишут торговых ботов, анализируют окружение и генерируют HTML-графики без обращения к облачным API.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Loop Engineering — следующий шаг после prompt engineering.
Большинство всё ещё использует Claude Code, Codex, Cursor или Grok как чат-окно:
Промпт. Ждёшь. Копируешь. Исправляешь. Снова промпт.
Этот репозиторий показывает следующий шаг:
Вы перестаёте давать промпты агенту.
Вы проектируете цикл, который сам даёт промпты агенту.
Внутри:
→ Ежедневные циклы триажа
→ Циклы PR-няньки
→ Циклы CI-уборки
→ Циклы чистки зависимостей
→ Циклы составления changelog
→ Циклы пост-мерж очистки
→ Циклы триажа issues
Также даёт CLI для:
• Создания цикла (scaffold)
• Оценки токенов
• Аудита готовности репозитория
• Добавления памяти/состояния
• Добавления передачи человеку
• Добавления верификационных шлюзов
• Безопасного запуска агентов через GitHub Actions
Самое интересное — сдвиг в мышлении.
Prompt engineering был о том, как писать лучшие промты.
Loop engineering — о создании системы, где агенты продолжают работать, проверять, исправлять и эскалировать без вашего присмотра на каждом шагу.
Репозиторий: https://github.com/cobusgreyling/loop-engineering
👉 @DataSciencegx
Большинство всё ещё использует Claude Code, Codex, Cursor или Grok как чат-окно:
Промпт. Ждёшь. Копируешь. Исправляешь. Снова промпт.
Этот репозиторий показывает следующий шаг:
Вы перестаёте давать промпты агенту.
Вы проектируете цикл, который сам даёт промпты агенту.
Внутри:
→ Ежедневные циклы триажа
→ Циклы PR-няньки
→ Циклы CI-уборки
→ Циклы чистки зависимостей
→ Циклы составления changelog
→ Циклы пост-мерж очистки
→ Циклы триажа issues
Также даёт CLI для:
• Создания цикла (scaffold)
• Оценки токенов
• Аудита готовности репозитория
• Добавления памяти/состояния
• Добавления передачи человеку
• Добавления верификационных шлюзов
• Безопасного запуска агентов через GitHub Actions
Самое интересное — сдвиг в мышлении.
Prompt engineering был о том, как писать лучшие промты.
Loop engineering — о создании системы, где агенты продолжают работать, проверять, исправлять и эскалировать без вашего присмотра на каждом шагу.
Репозиторий: https://github.com/cobusgreyling/loop-engineering
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышло практическое руководство по созданию обвязок для AI-агентов
Harness Engineering Guide — практическое руководство по созданию обвязок для AI-агентов с концепциями, туториалами, статьями, инструментами и работающими примерами кода.
Оно помогает понять, что превращает голую языковую модель в агента, разбирая компоненты обвязки: выполнение инструментов, память, сборку контекста, границы безопасности, планирование и мультиагентную оркестрацию.
Ключевые особенности:
* Путь от основ — начинается с «Что такое Harness?» и 50-строчного Python-примера, который можно скопировать и запустить
* Основные концепции рантайма — охватывает агентный цикл, системы инструментов, память, контекст и guardrails
* Практические главы — включает песочницы, навыки, саб-агенты, обработку ошибок, планирование и проектирование долгоиграющих обвязок
* Сравнение инструментов — сравнивает OpenClaw, Claude Code, Codex, Cline, Aider и Cursor бок о бок
* Вклад сообщества — принимает материалы через GitHub issues или прямые PR
Проект с открытым исходным кодом (лицензия MIT).
👉 @DataSciencegx
Harness Engineering Guide — практическое руководство по созданию обвязок для AI-агентов с концепциями, туториалами, статьями, инструментами и работающими примерами кода.
Оно помогает понять, что превращает голую языковую модель в агента, разбирая компоненты обвязки: выполнение инструментов, память, сборку контекста, границы безопасности, планирование и мультиагентную оркестрацию.
Ключевые особенности:
* Путь от основ — начинается с «Что такое Harness?» и 50-строчного Python-примера, который можно скопировать и запустить
* Основные концепции рантайма — охватывает агентный цикл, системы инструментов, память, контекст и guardrails
* Практические главы — включает песочницы, навыки, саб-агенты, обработку ошибок, планирование и проектирование долгоиграющих обвязок
* Сравнение инструментов — сравнивает OpenClaw, Claude Code, Codex, Cline, Aider и Cursor бок о бок
* Вклад сообщества — принимает материалы через GitHub issues или прямые PR
Проект с открытым исходным кодом (лицензия MIT).
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - nexu-io/harness-engineering-guide: 🔧 The open guide to Harness Engineering — concepts, tutorials, papers, tools, and resources…
🔧 The open guide to Harness Engineering — concepts, tutorials, papers, tools, and resources for building and managing AI agent runtimes. - nexu-io/harness-engineering-guide
This media is not supported in your browser
VIEW IN TELEGRAM
Промпт-инжиниринг и loop engineering — простое объяснение!
По своей сути агент — это цикл while:
- Модель выполняется
- Она запрашивает вызовы инструментов
- Результаты работы инструментов возвращаются в контекст
- Модель запускается снова, пока не перестанет запрашивать инструменты
Подход ReAct описал такую форму цикла ещё в 2022–2023 годах, и почти все современные агентные системы и фреймворки используют похожую реализацию.
Поэтому сами циклы — далеко не новая идея. Описанная выше реализация была решена уже давно.
Но оставался нерешённым цикл вокруг этого цикла. Именно о нём недавно говорили Борис и Питер.
В наиболее распространённой схеме внешним циклом управляешь ты.
- Пишешь промпт
- Читаешь шаги, которые выполняет агент
- Пишешь следующий промпт
- Повторяешь процесс, отслеживая ошибки по мере работы
Сейчас появляются попытки автоматизировать и внешний цикл, чтобы исключить человека из процесса.
- Запуск происходит по расписанию или по событию
- Агент выполняет множество шагов без новых промптов между ними
- Сам решает, когда работа завершена
- Возвращается к человеку только тогда, когда действительно требуется его участие
Рассмотрим пример с упавшим тестом в CI.
Сейчас ты копируешь сообщение об ошибке в агента, читаешь предложенное исправление, запускаешь тесты и снова передаёшь следующую ошибку, пока все тесты не пройдут.
То есть каждый шаг проходит через тебя.
При автоматизированном цикле агент выполняет те же самые шаги самостоятельно.
Он запускается по расписанию, считывает ошибку, готовит исправление в отдельной ветке, запускает тесты и передаёт следующую ошибку самому себе как новый шаг, пока тесты не пройдут или не будет достигнут лимит шагов.
Отдельный ревьюер проверяет исправление, открывает PR, если всё в порядке, или передаёт его человеку, если обнаруживает проблемы.
Внутренний цикл всегда был автоматическим. Сейчас автоматизируют именно твоё участие в этом процессе.
Но бесплатно это не даётся.
> Пока ты управлял внешним циклом, ты мог остановить процесс, обладал памятью о проекте и выступал в роли ревьюера. Теперь все эти функции должны существовать внутри самой системы.
> И хотя участие в цикле замедляло работу, зато ты понимал, что именно происходит.
Главный недостаток исключения человека из цикла в том, что ответственность остаётся за тобой, а понимание происходящего, скорее всего, теряется.
> Сам по себе цикл не умеет определять, когда действительно пора остановиться. Он просто поверит агенту, что задача выполнена, и может завершиться даже при падающих тестах. Поэтому условие остановки должно проверяться независимо, а также необходим лимит шагов или токенов, чтобы избежать бесконечных циклов.
> Контекст увеличивается на каждом шаге, и по мере его роста качество работы модели снижается.
Поэтому цикл должен сокращать контекст, сохраняя только сводки вместо полной истории, переносить большие результаты в файлы и разбивать крупные задачи на отдельные запуски.
> Наконец, агент не должен сам проверять собственную работу, потому что он примет любое своё решение как правильное.
Такую проверку должна выполнять отдельная модель или бинарный/детерминированный тест.
Стоимость тоже быстро растёт, потому что на каждом шаге заново передаётся весь контекст. Поэтому длинный цикл может стоить во много раз дороже, чем выполнение одного промпта.
Если хочешь разобраться глубже, мой сооснователь подготовил подробный разбор — от описанного выше цикла до полностью автономного запуска, который завершает работу самостоятельно, с примерами кода для каждого этапа.
Читайте дальше🐸
👉 @DataSciencegx
По своей сути агент — это цикл while:
- Модель выполняется
- Она запрашивает вызовы инструментов
- Результаты работы инструментов возвращаются в контекст
- Модель запускается снова, пока не перестанет запрашивать инструменты
Подход ReAct описал такую форму цикла ещё в 2022–2023 годах, и почти все современные агентные системы и фреймворки используют похожую реализацию.
Поэтому сами циклы — далеко не новая идея. Описанная выше реализация была решена уже давно.
Но оставался нерешённым цикл вокруг этого цикла. Именно о нём недавно говорили Борис и Питер.
В наиболее распространённой схеме внешним циклом управляешь ты.
- Пишешь промпт
- Читаешь шаги, которые выполняет агент
- Пишешь следующий промпт
- Повторяешь процесс, отслеживая ошибки по мере работы
Сейчас появляются попытки автоматизировать и внешний цикл, чтобы исключить человека из процесса.
- Запуск происходит по расписанию или по событию
- Агент выполняет множество шагов без новых промптов между ними
- Сам решает, когда работа завершена
- Возвращается к человеку только тогда, когда действительно требуется его участие
Рассмотрим пример с упавшим тестом в CI.
Сейчас ты копируешь сообщение об ошибке в агента, читаешь предложенное исправление, запускаешь тесты и снова передаёшь следующую ошибку, пока все тесты не пройдут.
То есть каждый шаг проходит через тебя.
При автоматизированном цикле агент выполняет те же самые шаги самостоятельно.
Он запускается по расписанию, считывает ошибку, готовит исправление в отдельной ветке, запускает тесты и передаёт следующую ошибку самому себе как новый шаг, пока тесты не пройдут или не будет достигнут лимит шагов.
Отдельный ревьюер проверяет исправление, открывает PR, если всё в порядке, или передаёт его человеку, если обнаруживает проблемы.
Внутренний цикл всегда был автоматическим. Сейчас автоматизируют именно твоё участие в этом процессе.
Но бесплатно это не даётся.
> Пока ты управлял внешним циклом, ты мог остановить процесс, обладал памятью о проекте и выступал в роли ревьюера. Теперь все эти функции должны существовать внутри самой системы.
> И хотя участие в цикле замедляло работу, зато ты понимал, что именно происходит.
Главный недостаток исключения человека из цикла в том, что ответственность остаётся за тобой, а понимание происходящего, скорее всего, теряется.
> Сам по себе цикл не умеет определять, когда действительно пора остановиться. Он просто поверит агенту, что задача выполнена, и может завершиться даже при падающих тестах. Поэтому условие остановки должно проверяться независимо, а также необходим лимит шагов или токенов, чтобы избежать бесконечных циклов.
> Контекст увеличивается на каждом шаге, и по мере его роста качество работы модели снижается.
Поэтому цикл должен сокращать контекст, сохраняя только сводки вместо полной истории, переносить большие результаты в файлы и разбивать крупные задачи на отдельные запуски.
> Наконец, агент не должен сам проверять собственную работу, потому что он примет любое своё решение как правильное.
Такую проверку должна выполнять отдельная модель или бинарный/детерминированный тест.
Стоимость тоже быстро растёт, потому что на каждом шаге заново передаётся весь контекст. Поэтому длинный цикл может стоить во много раз дороже, чем выполнение одного промпта.
Если хочешь разобраться глубже, мой сооснователь подготовил подробный разбор — от описанного выше цикла до полностью автономного запуска, который завершает работу самостоятельно, с примерами кода для каждого этапа.
Читайте дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
Нашёл отличную книгу — The Hitchhiker’s Guide to Agentic AI, которая охватывает практически весь стек Agentic AI.
https://arxiv.org/abs/2606.24937
Главная ценность книги — широкий обзор всего направления: архитектура LLM, обучение моделей, методы обучения с подкреплением, системы инференса, оценка моделей, агентные системы и многое другое.
Лучше всего использовать её как карту знаний. Сначала просмотреть оглавление, найти темы, в которых есть пробелы, понять, чего ещё не хватает, а затем углубиться в соответствующие главы. Такой подход помогает выстроить системное понимание Agentic AI.
🐸 🐸 🐸
👉 @DataSciencegx
https://arxiv.org/abs/2606.24937
Главная ценность книги — широкий обзор всего направления: архитектура LLM, обучение моделей, методы обучения с подкреплением, системы инференса, оценка моделей, агентные системы и многое другое.
Лучше всего использовать её как карту знаний. Сначала просмотреть оглавление, найти темы, в которых есть пробелы, понять, чего ещё не хватает, а затем углубиться в соответствующие главы. Такой подход помогает выстроить системное понимание Agentic AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Представлен tau (τ) — образовательный agent harness, который помогает разобраться, как создавать собственные agent harness'ы.
Автор проекта планирует публиковать туториалы и демо, посвящённые созданию собственных TUI, harness'ов, расширений и других компонентов на базе tau.
Подробнее: https://twotimespi.dev
Также автор рассказал, почему проект получил название tau: https://twotimespi.dev/why-tau/
👉 @DataSciencegx
Автор проекта планирует публиковать туториалы и демо, посвящённые созданию собственных TUI, harness'ов, расширений и других компонентов на базе tau.
Подробнее: https://twotimespi.dev
Также автор рассказал, почему проект получил название tau: https://twotimespi.dev/why-tau/
Please open Telegram to view this post
VIEW IN TELEGRAM
Я нашёл OCR-инструмент, созданный для эпохи LLM.
Он называется olmOCR.
olmOCR берёт PDF, сканы, PNG и JPEG и превращает их в чистый Markdown, который модели действительно могут понять.
Он обрабатывает то, что обычно ломает документные пайплайны:
→ Таблицы
→ Формулы
→ Рукописный текст
→ Многоколоночная вёрстка
→ Иллюстрации
→ Врезки
→ Старые сканы
→ Верхние и нижние колонтитулы
→ Естественный порядок чтения
Вместо того чтобы скормить вашей ИИ грязный дамп PDF, вы даёте ей структурированный Markdown, сохраняющий исходный замысел документа.
Это важно, потому что огромная часть мировых знаний всё ещё заперта внутри PDF.
Научные статьи.
Юридические документы.
Финансовые отчёты.
Медицинские документы.
Отсканированные архивы.
Государственные документы.
Внутренние корпоративные знания.
Все строят RAG поверх документов.
Но если ваш OCR плох — ваша ИИ уже ошибается ещё до начала поиска.
olmOCR чинит первый рубеж.
Скучный слой.
Слой, о котором никто не говорит, пока их агент не начинает галлюцинировать из-за сломанного текста из PDF.
https://github.com/allenai/olmocr
👉 @DataSciencegx
Он называется olmOCR.
olmOCR берёт PDF, сканы, PNG и JPEG и превращает их в чистый Markdown, который модели действительно могут понять.
Он обрабатывает то, что обычно ломает документные пайплайны:
→ Таблицы
→ Формулы
→ Рукописный текст
→ Многоколоночная вёрстка
→ Иллюстрации
→ Врезки
→ Старые сканы
→ Верхние и нижние колонтитулы
→ Естественный порядок чтения
Вместо того чтобы скормить вашей ИИ грязный дамп PDF, вы даёте ей структурированный Markdown, сохраняющий исходный замысел документа.
Это важно, потому что огромная часть мировых знаний всё ещё заперта внутри PDF.
Научные статьи.
Юридические документы.
Финансовые отчёты.
Медицинские документы.
Отсканированные архивы.
Государственные документы.
Внутренние корпоративные знания.
Все строят RAG поверх документов.
Но если ваш OCR плох — ваша ИИ уже ошибается ещё до начала поиска.
olmOCR чинит первый рубеж.
Скучный слой.
Слой, о котором никто не говорит, пока их агент не начинает галлюцинировать из-за сломанного текста из PDF.
https://github.com/allenai/olmocr
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Инжиниринг агентов (Agentic Engineering) Карпати наконец-то получил нормальный инструментарий
(созданный Google)
Карпати определил агентный инжиниринг как дисциплину, которая отделяет продакшн-работу с агентами от «вайб-кодинга». Основные навыки, которые он перечислил: проектирование спецификаций, eval-циклы и контроль безопасности.
Проблема в том, что для практики всё ещё нужен отдельный инструмент на каждом этапе:
- редактор для кода
- терминал для шаблонов
- браузер для тестирования
- облачная консоль для деплоя
- отдельный фреймворк для eval'ов
Каждый переход — это переключение контекста.
Решение для продакшн-уровня агентного инжиниринга теперь реализовано в Google Agents CLI.
Он покрывает весь воркфлоу в одном месте: шаблонизация, eval'ы и деплой ADK-агентов.
Одна команда настройки внедряет 7 ADK-специфичных навыков в контекст кодинг-агента, что позволяет ему обрабатывать шаблонизацию, eval'ы, деплой и регистрацию в Enterprise через естественный язык.
Я протестировал это от начала до конца, собрав RAG-агента с нуля через Claude Code.
Он сгенерировал полный проект из шаблона ADK agentic_rag, создал 20 eval-сценариев с оценкой LLM-as-judge и выдал количественную скоринг-карту.
В конце он также развернул всё в Agent Runtime и зарегистрировал агента в Gemini Enterprise, так что вся организация может его найти и использовать.
Видео выше показывает это в действии
Репозиторий Agents CLI на GitHub →
Вот полный гайд по сборке, охватывающий все шесть шагов — от установки до регистрации в Enterprise.
Он включает скоринг-карту eval'ов, «дыру» в инструкции, которую eval поймал до деплоя, и то, как процесс деплоя выглядит от начала до конца.
Читайте🐸
👉 @DataSciencegx
(созданный Google)
Карпати определил агентный инжиниринг как дисциплину, которая отделяет продакшн-работу с агентами от «вайб-кодинга». Основные навыки, которые он перечислил: проектирование спецификаций, eval-циклы и контроль безопасности.
Проблема в том, что для практики всё ещё нужен отдельный инструмент на каждом этапе:
- редактор для кода
- терминал для шаблонов
- браузер для тестирования
- облачная консоль для деплоя
- отдельный фреймворк для eval'ов
Каждый переход — это переключение контекста.
Решение для продакшн-уровня агентного инжиниринга теперь реализовано в Google Agents CLI.
Он покрывает весь воркфлоу в одном месте: шаблонизация, eval'ы и деплой ADK-агентов.
Одна команда настройки внедряет 7 ADK-специфичных навыков в контекст кодинг-агента, что позволяет ему обрабатывать шаблонизацию, eval'ы, деплой и регистрацию в Enterprise через естественный язык.
Я протестировал это от начала до конца, собрав RAG-агента с нуля через Claude Code.
Он сгенерировал полный проект из шаблона ADK agentic_rag, создал 20 eval-сценариев с оценкой LLM-as-judge и выдал количественную скоринг-карту.
В конце он также развернул всё в Agent Runtime и зарегистрировал агента в Gemini Enterprise, так что вся организация может его найти и использовать.
Видео выше показывает это в действии
Репозиторий Agents CLI на GitHub →
Вот полный гайд по сборке, охватывающий все шесть шагов — от установки до регистрации в Enterprise.
Он включает скоринг-карту eval'ов, «дыру» в инструкции, которую eval поймал до деплоя, и то, как процесс деплоя выглядит от начала до конца.
Читайте
Please open Telegram to view this post
VIEW IN TELEGRAM
Трансформеры становятся понятнее, когда можно «потыкать» модель напрямую.
Transformer Explainer — это интерактивный инструмент визуализации для изучения того, как работают текстогенерирующие модели на основе трансформеров, такие как GPT.
Он помогает связать архитектуру с реальным поведением, запуская живую GPT-2 прямо в браузере, позволяя вводить свой текст и показывая, как внутренние компоненты работают вместе для предсказания следующих токенов.
Ключевые возможности:
- Живая GPT-2 в браузере — экспериментируйте без настройки отдельного сервера модели
- Свой текст — пробуйте собственные промпты и смотрите, как модель их обрабатывает
- Внутренние компоненты — наблюдайте за операциями, работающими внутри трансформера
- Фокус на предсказании следующего токена — связывайте каждый визуальный шаг с предсказаниями модели
- Локальная разработка — клонируйте репозиторий, установите зависимости и запустите через npm для глубокого изучения
Это open-source (лицензия MIT).
https://github.com/poloclub/transformer-explainer
👉 @DataSciencegx
Transformer Explainer — это интерактивный инструмент визуализации для изучения того, как работают текстогенерирующие модели на основе трансформеров, такие как GPT.
Он помогает связать архитектуру с реальным поведением, запуская живую GPT-2 прямо в браузере, позволяя вводить свой текст и показывая, как внутренние компоненты работают вместе для предсказания следующих токенов.
Ключевые возможности:
- Живая GPT-2 в браузере — экспериментируйте без настройки отдельного сервера модели
- Свой текст — пробуйте собственные промпты и смотрите, как модель их обрабатывает
- Внутренние компоненты — наблюдайте за операциями, работающими внутри трансформера
- Фокус на предсказании следующего токена — связывайте каждый визуальный шаг с предсказаниями модели
- Локальная разработка — клонируйте репозиторий, установите зависимости и запустите через npm для глубокого изучения
Это open-source (лицензия MIT).
https://github.com/poloclub/transformer-explainer
Please open Telegram to view this post
VIEW IN TELEGRAM
Не учите ML, прыгая по случайным туториалам.
DS-ML Bootcamp — это публичный репозиторий курса по Data Science и машинному обучению для начинающих, которые хотят структурированный путь от нуля до практических проектов.
Он помогает перейти от установки и концепций к практической ML-работе, организуя уроки, задания, примеры кода, датасеты и решения вокруг основного воркфлоу машинного обучения.
Ключевые возможности:
- Сквозной воркфлоу — охватывает сбор данных, предобработку, разбиение на train/test, выбор модели, обучение, оценку и развёртывание
- Структура по урокам — начинается с инструментов/настройки, Data Science, ML, основ данных и регрессии
- Практические материалы — задания дают учащимся структурированные задачи, а не только чтение конспектов
- Код + датасеты — примеры на Python и сырые CSV-датасеты включены для упражнений
- Настройка для повторения — в README сказано, что можно клонировать репозиторий и использовать Jupyter или VS Code, параллельно просматривая уроки
Бесплатный публичный репозиторий на GitHub.
👉 @DataSciencegx
DS-ML Bootcamp — это публичный репозиторий курса по Data Science и машинному обучению для начинающих, которые хотят структурированный путь от нуля до практических проектов.
Он помогает перейти от установки и концепций к практической ML-работе, организуя уроки, задания, примеры кода, датасеты и решения вокруг основного воркфлоу машинного обучения.
Ключевые возможности:
- Сквозной воркфлоу — охватывает сбор данных, предобработку, разбиение на train/test, выбор модели, обучение, оценку и развёртывание
- Структура по урокам — начинается с инструментов/настройки, Data Science, ML, основ данных и регрессии
- Практические материалы — задания дают учащимся структурированные задачи, а не только чтение конспектов
- Код + датасеты — примеры на Python и сырые CSV-датасеты включены для упражнений
- Настройка для повторения — в README сказано, что можно клонировать репозиторий и использовать Jupyter или VS Code, параллельно просматривая уроки
Бесплатный публичный репозиторий на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - goobolabs/ds-ml-bootcamp: Data Science and Machine Learning Bootcamp. (Jun - 2026)
Data Science and Machine Learning Bootcamp. (Jun - 2026) - goobolabs/ds-ml-bootcamp