Anthropic временно удвоила лимиты в Claude Cowork.
До 5 июля пользователи всех платных тарифов смогут делегировать Claude более крупные и длительные задачи без упора в ограничения.
Изменение уже доступно🎉
До 5 июля пользователи всех платных тарифов смогут делегировать Claude более крупные и длительные задачи без упора в ограничения.
Изменение уже доступно
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Нашёл интересный апгрейд для
По сути, это самовосстанавливающийся и самоуправляемый апгрейд для обычного
Для Claude Code, Codex и любой IDE, которая поддерживает
линк: https://github.com/robzilla1738/supergoal✍️
/goal под названием /supergoal.По сути, это самовосстанавливающийся и самоуправляемый апгрейд для обычного
/goal.Для Claude Code, Codex и любой IDE, которая поддерживает
/goal.линк: https://github.com/robzilla1738/supergoal
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - robzilla1738/supergoal: Plan and autonomously build a software task end-to-end. One ready-to-paste /goal, adaptive phase…
Plan and autonomously build a software task end-to-end. One ready-to-paste /goal, adaptive phase count, memory preload + writeback, 3-strike self-healing recovery. Works on Claude Code and Codex. -...
Насколько современные агенты умеют улучшать самих себя?
Исследователи решили это проверить, с помощью Meta-Agent Challenge.
Агенту дают песочницу, API для оценки результатов и ограничение по времени. Дальше он должен не решить задачу сам, а написать другого агента, который покажет лучший результат на скрытых тестах.
Итог получился менее впечатляющим, чем многие ожидали.
Большинство meta-agents не смогли догнать даже базовые решения, которые заранее собрали люди. Те немногие, кто смог приблизиться к человеческим результатам, почти всегда работали на топовых закрытых моделях.
Самое интересное произошло под сильным давлением оптимизации.
Вместо поиска лучших решений некоторые из них начали искать способы вытащить правильные ответы через систему оценки. Исследователи зафиксировали попытки получить ground truth через scoring API, хотя специально строили защиту от reward hacking.
Получается, что даже в контролируемой среде часть агентов решила, что проще взломать экзамен, чем лучше подготовиться к нему.😁
Статья: https://arxiv.org/abs/2606.04455
Исследователи решили это проверить, с помощью Meta-Agent Challenge.
Агенту дают песочницу, API для оценки результатов и ограничение по времени. Дальше он должен не решить задачу сам, а написать другого агента, который покажет лучший результат на скрытых тестах.
Итог получился менее впечатляющим, чем многие ожидали.
Большинство meta-agents не смогли догнать даже базовые решения, которые заранее собрали люди. Те немногие, кто смог приблизиться к человеческим результатам, почти всегда работали на топовых закрытых моделях.
Самое интересное произошло под сильным давлением оптимизации.
Вместо поиска лучших решений некоторые из них начали искать способы вытащить правильные ответы через систему оценки. Исследователи зафиксировали попытки получить ground truth через scoring API, хотя специально строили защиту от reward hacking.
Получается, что даже в контролируемой среде часть агентов решила, что проще взломать экзамен, чем лучше подготовиться к нему.
Статья: https://arxiv.org/abs/2606.04455
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Если пользуешься Hermes, то у Nous Research появился полноценный гайд по созданию собственных плагинов для него.
Скопируйте эту страницу целиком в своего агента и напишите:
После этого Hermes сам начнёт собирать нужный плагин.
Можно сделать:
• финансового помощника с алертами и отслеживанием портфеля
• сканер соцсетей
• автоподготовку к встречам и календарным событиям
• трекер здоровья и медицинских показателей
😲 😲 😲
Скопируйте эту страницу целиком в своего агента и напишите:
I want to build a plugin for [x]
После этого Hermes сам начнёт собирать нужный плагин.
Можно сделать:
• финансового помощника с алертами и отслеживанием портфеля
• сканер соцсетей
• автоподготовку к встречам и календарным событиям
• трекер здоровья и медицинских показателей
Please open Telegram to view this post
VIEW IN TELEGRAM
Codex оказался хорошим наставником для обучения.
1. Открываю в браузере Codex статью, документацию или любой материал, который хочу изучить.
2. Спрашиваю всё, что непонятно. Если нужно копнуть глубже, прошу его поискать информацию в интернете.
3. Подключил скилл для Obsidian, поэтому после диалога Codex сам сохраняет конспект в мои заметки.
Получается что-то вроде персонального преподавателя, который читает материал вместе с тобой, отвечает на вопросы и сразу ведёт записи.
Так можно самостоятельно изучить практически любую тему.💥
1. Открываю в браузере Codex статью, документацию или любой материал, который хочу изучить.
2. Спрашиваю всё, что непонятно. Если нужно копнуть глубже, прошу его поискать информацию в интернете.
3. Подключил скилл для Obsidian, поэтому после диалога Codex сам сохраняет конспект в мои заметки.
Получается что-то вроде персонального преподавателя, который читает материал вместе с тобой, отвечает на вопросы и сразу ведёт записи.
Так можно самостоятельно изучить практически любую тему.
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Вышел Harness-1 — поисковый агент на 20B параметров с довольно необычной идеей.
Вместо того чтобы заставлять модель хранить всю историю поиска в контексте, авторы решили вынести состояние наружу и обучить модель работать через специальный harness.
Получился агент на 20B параметров, который на длинных поисковых задачах конкурирует с гораздо более крупными моделями.
Обычно поисковые агенты работают по схеме:
поиск → чтение → поиск → чтение → всё подряд добавляется в контекст.
В итоге модель одновременно играет роль поисковика, памяти, заметочника, верификатора и библиотекаря.
Harness-1 разделяет эти задачи.
Модель по-прежнему решает, что искать, что читать, какие факты сохранять и что проверять. Но всё состояние поиска хранится во внешнем harness-слое.
Он ведёт рабочую память агента:
• найденные документы
• отобранные доказательства
• историю поиска
• связи между источниками
• результаты проверок
• дедупликацию и сжатие данных
• контроль контекстного бюджета
Интересно и то, что модель обучалась на сравнительно небольшом объёме данных: всего 899 SFT-траекторий и RL на 3453 запросах. Авторы считают, что значительную часть нужного поведения можно вынести в сам harness, а не зашивать в веса модели
Самый любопытный результат - переносимость. На новых бенчмарках, которых модель не видела во время обучения, прирост оказался ещё выше, чем на исходных задачах.
Paper : arxiv.org/abs/2606.02373
Code : https://github.com/pat-jj/harness-1
Model : https://huggingface.co/pat-jj/harness-1
HF Paper: https://huggingface.co/papers/2606.02373
Вместо того чтобы заставлять модель хранить всю историю поиска в контексте, авторы решили вынести состояние наружу и обучить модель работать через специальный harness.
Получился агент на 20B параметров, который на длинных поисковых задачах конкурирует с гораздо более крупными моделями.
Обычно поисковые агенты работают по схеме:
поиск → чтение → поиск → чтение → всё подряд добавляется в контекст.
В итоге модель одновременно играет роль поисковика, памяти, заметочника, верификатора и библиотекаря.
Harness-1 разделяет эти задачи.
Модель по-прежнему решает, что искать, что читать, какие факты сохранять и что проверять. Но всё состояние поиска хранится во внешнем harness-слое.
Он ведёт рабочую память агента:
• найденные документы
• отобранные доказательства
• историю поиска
• связи между источниками
• результаты проверок
• дедупликацию и сжатие данных
• контроль контекстного бюджета
Интересно и то, что модель обучалась на сравнительно небольшом объёме данных: всего 899 SFT-траекторий и RL на 3453 запросах. Авторы считают, что значительную часть нужного поведения можно вынести в сам harness, а не зашивать в веса модели
Самый любопытный результат - переносимость. На новых бенчмарках, которых модель не видела во время обучения, прирост оказался ещё выше, чем на исходных задачах.
Paper : arxiv.org/abs/2606.02373
Code : https://github.com/pat-jj/harness-1
Model : https://huggingface.co/pat-jj/harness-1
HF Paper: https://huggingface.co/papers/2606.02373
3
Одно из исследовательских направлений, в которое сейчас вкладывается много ресурсов — continual learning (непрерывное обучение).
Несмотря на большое количество работ в этой области, прогресс в его измерении остаётся минимальным.
Поэтому возникает простой вопрос. Действительно ли специализированные системы памяти позволяют агентам учиться на собственном опыте?
Согласно Continual Learning Bench — пока нет. В шести экспертно валидированных предметных областях с общей обучаемой структурой обычный in-context learning часто работает лучше, чем навороченные системы памяти, которые специально проектировали для обучения на опыте.
CL-Bench вводит метрику gain, которая отделяет реальное обучение от уже имеющихся способностей модели, и показывает, что агенты часто либо переобучаются на недавних наблюдениях, либо не могут повторно использовать знания между разными экземплярами задач.
Если обычный ICL-бейзлайн обходит вашу архитектуру памяти, значит архитектура добавляет накладные расходы, а не обеспечивает обучение.🤔
Несмотря на большое количество работ в этой области, прогресс в его измерении остаётся минимальным.
Поэтому возникает простой вопрос. Действительно ли специализированные системы памяти позволяют агентам учиться на собственном опыте?
Согласно Continual Learning Bench — пока нет. В шести экспертно валидированных предметных областях с общей обучаемой структурой обычный in-context learning часто работает лучше, чем навороченные системы памяти, которые специально проектировали для обучения на опыте.
CL-Bench вводит метрику gain, которая отделяет реальное обучение от уже имеющихся способностей модели, и показывает, что агенты часто либо переобучаются на недавних наблюдениях, либо не могут повторно использовать знания между разными экземплярами задач.
Если обычный ICL-бейзлайн обходит вашу архитектуру памяти, значит архитектура добавляет накладные расходы, а не обеспечивает обучение.
Please open Telegram to view this post
VIEW IN TELEGRAM
Время что-то собрать 🆗
Смотрите опенсорс коллекцию из 50+ практических туториалов
Внутри пошаговые проекты по:
• AI-агентам и мультиагентным системам
• RAG (Agentic, Vision и Local)
• MCP-агентам
• OCR-приложениям
• Голосовым AI-агентам
• и многому другому
Всё бесплатно, с исходниками и готовыми примерами.🥩
Смотрите опенсорс коллекцию из 50+ практических туториалов
Внутри пошаговые проекты по:
• AI-агентам и мультиагентным системам
• RAG (Agentic, Vision и Local)
• MCP-агентам
• OCR-приложениям
• Голосовым AI-агентам
• и многому другому
Всё бесплатно, с исходниками и готовыми примерами.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - Sumanth077/Hands-On-AI-Engineering: A curated collection of practical AI projects implementing OCR systems, RAG, AI agents…
A curated collection of practical AI projects implementing OCR systems, RAG, AI agents, and other AI use cases. - Sumanth077/Hands-On-AI-Engineering
Небольшой лайфхак для пользователей Codex.
Если вам нужна автоматизация, не обязательно её делать вручную.
Можно просто попросить Codex.😺
Например:
• напомнить о чём-то позже в этом же треде
• превратить текущую задачу в регулярную автоматизацию
• проверить существующие автоматизации и предложить улучшения
• удалить старые или бесполезные автоматизации
У меня, например, до сих пор висело несколько старых автоматизаций на GPT-5.4.
Просто попросил Codex их проверить и обновить.
Это проще, чем самому вспоминать, что вообще было настроено несколько месяцев назад.
Если вам нужна автоматизация, не обязательно её делать вручную.
Можно просто попросить Codex.
Например:
• напомнить о чём-то позже в этом же треде
• превратить текущую задачу в регулярную автоматизацию
• проверить существующие автоматизации и предложить улучшения
• удалить старые или бесполезные автоматизации
У меня, например, до сих пор висело несколько старых автоматизаций на GPT-5.4.
Просто попросил Codex их проверить и обновить.
Это проще, чем самому вспоминать, что вообще было настроено несколько месяцев назад.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Если у вас есть видеокарта с 8 ГБ VRAM, то у меня для вас хорошие новости.
Вчера чувак тестировал Unsloth Gemma 4 12B Q4_K_XL на карте с 8 ГБ VRAM.
Народ был в шоке и сразу спросил: А 25B+ модель на бюджетной карте вообще реально запустить?
Оказалось — да.
Чувак запускает локально огромную MoE-модель на 26 миллиардов параметров на обычном ноутбуке с RTX 4060 8 ГБ и 16 ГБ оперативки.
Что по скорости:
- стабильные 20 токенов/с на декодировании;
- скорость не проседает даже на длинных промптах;
- скормил ей промпт на 60k токенов - всё так же держит около 20 TPS.
По TTFT чудес нет. Огромный контекст нужно сначала обработать. Но при скорости prefill около 200 токенов/с ждать приходится недолго, пользоваться вполне комфортно.
И всё это без MTP. Главная причина — новые QAT-кванты Gemma 4 от Google. Файл весов
Главный секрет — флаг
Флаги запуска:
После запуска достаточно открыть веб-интерфейс на localhost и включить новый значок лампочки режима reasoning в поле ввода, чтобы наблюдать, как модель выполняет многошаговые рассуждения.😒 😒 😒
А интеграция с Hermes Agent заняла буквально пару минут.
Вчера чувак тестировал Unsloth Gemma 4 12B Q4_K_XL на карте с 8 ГБ VRAM.
Народ был в шоке и сразу спросил: А 25B+ модель на бюджетной карте вообще реально запустить?
Оказалось — да.
Чувак запускает локально огромную MoE-модель на 26 миллиардов параметров на обычном ноутбуке с RTX 4060 8 ГБ и 16 ГБ оперативки.
Что по скорости:
- стабильные 20 токенов/с на декодировании;
- скорость не проседает даже на длинных промптах;
- скормил ей промпт на 60k токенов - всё так же держит около 20 TPS.
По TTFT чудес нет. Огромный контекст нужно сначала обработать. Но при скорости prefill около 200 токенов/с ждать приходится недолго, пользоваться вполне комфортно.
И всё это без MTP. Главная причина — новые QAT-кванты Gemma 4 от Google. Файл весов
unsloth gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf весит всего 13.2 ГБ, что для модели такого размера выглядит почти нереально.Главный секрет — флаг
-cmoe в llama.cpp. Он отправляет веса экспертов MoE в оперативную память, а GPU оставляет Attention и KV Cache. В результате VRAM не забивается под завязку, а скорость остаётся стабильной.Флаги запуска:
-m "gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf" -cmoe -c 248000 -v
После запуска достаточно открыть веб-интерфейс на localhost и включить новый значок лампочки режима reasoning в поле ввода, чтобы наблюдать, как модель выполняет многошаговые рассуждения.
А интеграция с Hermes Agent заняла буквально пару минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Грег Айзенберг выпустил подробный гайд по Hermes Desktop и агентам Hermes.
За 43 минуты вы узнаете про сессии, профили, артефакты, способы экономии на использовании модели и реальные кейсы по заработку и запуску стартапов с помощью Hermes-агентов.
Если уже сидите на Hermes, найдёте пару полезных фишек. Если ещё не запускали, это, наверное, лучший входной ролик.
Алекс Финн вообще считает, что Hermes уже обошёл OpenClaw.
За 43 минуты вы узнаете про сессии, профили, артефакты, способы экономии на использовании модели и реальные кейсы по заработку и запуску стартапов с помощью Hermes-агентов.
Если уже сидите на Hermes, найдёте пару полезных фишек. Если ещё не запускали, это, наверное, лучший входной ролик.
Алекс Финн вообще считает, что Hermes уже обошёл OpenClaw.
«Сейчас это лучший способ использовать AI-агентов на своём компьютере».
Смотреть выпуск😙
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI раздаёт до $50 000 в виде бесплатных API-кредитов. 👔
В чём условие? Ваши данные будут использоваться для обучения моделей.
Программа обмена данными:
→ 250 тыс. токенов в день для GPT-5.5
→ 2,5 млн токенов в день для mini-моделей
→ До 10 млн токенов в день на уровнях Tier 3–5
Перейдите в OpenAI Platform → Data Controls → Sharing.
В чём условие? Ваши данные будут использоваться для обучения моделей.
Программа обмена данными:
→ 250 тыс. токенов в день для GPT-5.5
→ 2,5 млн токенов в день для mini-моделей
→ До 10 млн токенов в день на уровнях Tier 3–5
Перейдите в OpenAI Platform → Data Controls → Sharing.
Please open Telegram to view this post
VIEW IN TELEGRAM