CatoCut
752 subscribers
1.62K photos
41 videos
5 files
1.45K links
Канал о разработке с помощью ИИ Агентов.
Agent-First Engineering
Download Telegram
Gemini 3.1 Pro стал доступен в Gemini CLI
👍1
👍2🔥1
🔥2👍1
Nano Banana 2

Описание:
Google DeepMind запустили обновленную версию Nano Banana Pro -> Nano Banana 2

Nano Banana 2 становится доступен всем и сразу.

Вы нигде не найдете на сайте именно выбор модели и название "Nano Banana 2" - просто нажимаете создать изображение как всегда и под капотом работает уже обновленная модель
OpenAI заключила соглашение с Пентагоном на развёртывание своих моделей в классифицированных военных сетях.

Немного контекста.
Anthropic отказался снять ограничения на использование ИИ для массовой слежки за американцами и автономного оружия. За это компания получила бан от всего федерального правительства и статус «угрозы национальной безопасности» — обозначение, которое обычно применяют к компаниям вроде Huawei.

Вся индустрия публично встала на сторону Anthropic. Сотни сотрудников Google и OpenAI подписали открытое письмо. Сэм Альтман выступил на CNBC, заявив, что «в целом доверяет Anthropic» и разделяет их красные линии. Илья Суцкевер отдельно написал, что то, как сплотились конкуренты — «крайне важно».
А спустя несколько часов после того, как Трамп забанил Anthropic, OpenAI объявляет о сделке с тем же Пентагоном. На тех же условиях, за которые Anthropic был наказан.

Альтман утверждает, что в соглашении прописаны те же ограничения — запрет на слежку и автономное оружие. Но вот что важно понимать: всё, что касается классифицированных военных сетей, по определению непрозрачно. Где именно проходят красные линии на практике, как они интерпретируются и соблюдаются — этого не увидит ни общественность, ни сотрудники, ни журналисты. Классифицированные контракты — это чёрный ящик.

И ещё один момент. Пентагон, который за день до сделки называл CEO Anthropic «лжецом с комплексом бога» за отказ снять ограничения, вдруг «проявил глубокое уважение к безопасности» в переговорах с OpenAI. Либо красные линии OpenAI на бумаге выглядят так же, но на деле оставляют Пентагону куда больше пространства. Либо дело не в условиях, а в готовности быть удобным партнёром.

В целом — это хорошая иллюстрация того, как работает Сэм Альтман. Он умеет говорить правильные слова в правильный момент. Поддержать Anthropic на камеру. А потом тихо занять их место за столом.
:)
👍1
Переусложнение | Оверинженеринг

Описание:
Как правило когда проект создается с использованием ии агентов - он выглядит не как оптимальная реализация соответсвующая своей цели, а как "создать и разработать бесконечный аккумулятор, чтобы создать терминатора с 0 чтобы он в свою очередь автоматически включал кондиционер в вашей комнате когда вам становится жарко"

Почему такое вообще происходит? - в большинстве случаев потому что:
1. Когда вы просто "вайбкодите" т.е. вообще не заглядываете в код и просто итеративно делаете то что видите перед экраном, а ля поменять кнопку А на кнопку Б - вы видите что то что вы попросили действительно было выполнено, но в коде там вместо логичного, оптимального изменения рождается какой-то очередной Франкенштейн - вы этого не видите и продолжаете разработку, в итоге получаете не просто космический корабль из костылей а межгалактический крейсер размером с вселенную просто чтобы реализовать какой-то вполне бытовой проект🤷‍♂️.

- как это лечить?
1. Вместо того чтобы сразу что-то делать - задавайте агенту наводящие вопросы.Уточняйте детали,интересуйтесь возможно ли сделать проще, но при этом получить даже более эффективный результат - таким образом вы формируете его контекст и он сам начинает лучше понимать детали, даже если вы ничего не поняли.

2. Прежде чем приступать к реализации - планировать и создавать контракт документацию.Чтобы для каждого отдельного среза, для каждой отдельной реализации чего-либо был контракт документ по которому даже модель с 1млрд параметров смогла бы что-то реализовать без лишних уточнений и гаданий.

3. Валидируйте и проводите ревью своих идей и контрактов, лучше всего самостоятельно читать что там написано (часто агенты склонны писать много текста с 50% реально полезного смысла) - полезно,необходимо и намного дешевле провести технический и архитектурный аудит и валидацию плана вместо того чтобы потом реализовывать монстра несколько дней подряд и мучаться от очередного "всё работает не так как я хотел" или вообще не работает.

Хороший проект написанный агентами - это не 150 лет мучений доводя и исправляя ошибки допущенные агентами пока вы добивались того что хотели.
Хороший проект созданный агентами - это когда вы сначала создаете полный пакет контрактов, спецификаций, правил, философии проекта, создаете полный контур документации проекта так чтобы в документации ваш проект был полностью описан и формализован end-to-end и саму документацию вы проверите, желательно лично, +с несколькими агентами и уже после прохождения полного ревью, убеждаясь что это полностью соответсвует вашему намерению - Реализуете проект.

Важно:
1. Агенты чинят симптомы а не инвариант
👍1
👍1
Питер, чем больше контекстное окно - тем больше ответственность

Даже если слухи магически откажутся правдой - это может не дать серьезной разницы в эффективности агентов
Всё больше утечек
GPT-5.3 Instant

Запустили модель GPT-5.3 Instant
Остальные reasoning модели будут чуть позже

Instant доступна на сайте всем
🔥3
По-моему GPT-5.3 стала адекватнее в общении, исчез чрезмерный холодок в модели и излишняя корректность
OpenAI открыто пишет что GPT-5.4 Очень скоро

ССылка на твитт
Грядущее обновление Codex CLI 0.108
И вероятно GPT-5.4

Описание:
Команда Codex OpenAI невероятно спешит в последние дни (89 коммитов за 2 дня).
По коммитам видно что появятся некоторые фичи и обновления в Codex:
1. Настройка имен субагентов в конфиге и пр мелкие изменения в интерфейсе;
Новая настройка nickname_candidates в конфиге ролей агентов - При создании sub-агента ему присваивается имя из пула, привязанного к его роли.
К примеру:
- Роль "researcher" → имена: scout, librarian, analyst
- Роль "coder" → имена: builder, smith, architect

2. Artifact - Новый встроенный инструмент которые дает агенту создавать презентации и таблицы.

3. Ускорение запуска субагентов и approvals(подтверждения) для субагентов в TUI.

4. Fast Mode - можно будет выбирать "Быструю" модель - видимо речь о том что можно будет использовать полноценную гигантскую модель, вероятно GPT-5.4 запущенную на серверах Cerebras, которые дают очень существенный прирост к скорости агента (вероятно стоимость тоже будет существенная за этот режим)

5. Плагины - теперь можно будет устанавливать плагины как в Claude Code (где в 1 пакете будут Skills,mcp,apps)

6. Память - у агента в 107 появилась долгосрочная память проекта, в текущей версии она получила развитие (обнаружение устаревших фактов, обновленные настойки и тюнинг под read-path и стабильных фактов)

7. Голосовой режим доработали, фактически суть в чем. Когда вы общаетесь - вы общаетесь с голосой realtime моделью, когда голосовая модель понимает что нужно что-то сделать - она передает управление текстовой модели.Видимо до 108 такого не было.Не знаю потому что на Linux до сих пор нет голосового управления (я сижу на Linux)

8. Original resolution view_image - Раньше все изображения сжимались перед отправкой модели - теперь модель будет получать полноценное изображение без сжатия (ВАУ), т.е. агент начнет нормально всё видеть, а не как слепой кролик пытаться понять что на изображении.
В GPT-5.4 будет использоваться «экстремальный» алгоритм рассуждений, а также контекстное окно в 1 миллион символов.
Codex App на Windows

OpenAI выпустили Codex App для Windows
Harness engineering

Описание
Статья OpenAI по разработке с 0 участием человек, когда всей разработкой занимается исключительно агент, а не человек.
Рекомендую почитать, очень познавательно

"Стало ясно: разработка программного обеспечения по-прежнему требует дисциплины, но эта дисциплина проявляется скорее в структуре, чем в самом коде. Инструменты, абстракции и механизмы обратной связи, обеспечивающие целостность кодовой базы, приобретают все большее значение."
Magray
Harness engineering Описание Статья OpenAI по разработке с 0 участием человек, когда всей разработкой занимается исключительно агент, а не человек. Рекомендую почитать, очень познавательно "Стало ясно: разработка программного обеспечения по-прежнему требует…
AGENTS.md | CLAUDE.md

Описание:
Когда агент ограничен множеством разнообразных правил и разнобойных знаний в контексте каждое отдельное правило имеет всё меньшую силу и влияние на агента - и его эффективность в целом начинает значительно падать т.к. "внимание" - основной ресурс агентов начинает распыляться и агент начинает говнокодить, не потому что глупый, а потому что пытается делать всё и вся, как ехать за рулем и пытаться танцевать одновременно.

Поэтому в статье Harness engineering - инженеры OpenAI рекомендуют делать из AGENTS.md не сводку MUST/SHOULD и "энциклопедию всех знаний", а только структурную карту проекта. Так агент самостоятельно узнает необходимую для конкретной задачи информацию тогда когда она ему нужна = наилучшая свежесть и плотность контекста = агент работает значительно более эффективно.
GPT 5.4 развертывают
👍3