OpenAI заключила соглашение с Пентагоном на развёртывание своих моделей в классифицированных военных сетях.
Немного контекста.
Anthropic отказался снять ограничения на использование ИИ для массовой слежки за американцами и автономного оружия. За это компания получила бан от всего федерального правительства и статус «угрозы национальной безопасности» — обозначение, которое обычно применяют к компаниям вроде Huawei.
Вся индустрия публично встала на сторону Anthropic. Сотни сотрудников Google и OpenAI подписали открытое письмо. Сэм Альтман выступил на CNBC, заявив, что «в целом доверяет Anthropic» и разделяет их красные линии. Илья Суцкевер отдельно написал, что то, как сплотились конкуренты — «крайне важно».
А спустя несколько часов после того, как Трамп забанил Anthropic, OpenAI объявляет о сделке с тем же Пентагоном. На тех же условиях, за которые Anthropic был наказан.
Альтман утверждает, что в соглашении прописаны те же ограничения — запрет на слежку и автономное оружие. Но вот что важно понимать: всё, что касается классифицированных военных сетей, по определению непрозрачно. Где именно проходят красные линии на практике, как они интерпретируются и соблюдаются — этого не увидит ни общественность, ни сотрудники, ни журналисты. Классифицированные контракты — это чёрный ящик.
И ещё один момент. Пентагон, который за день до сделки называл CEO Anthropic «лжецом с комплексом бога» за отказ снять ограничения, вдруг «проявил глубокое уважение к безопасности» в переговорах с OpenAI. Либо красные линии OpenAI на бумаге выглядят так же, но на деле оставляют Пентагону куда больше пространства. Либо дело не в условиях, а в готовности быть удобным партнёром.
В целом — это хорошая иллюстрация того, как работает Сэм Альтман. Он умеет говорить правильные слова в правильный момент. Поддержать Anthropic на камеру. А потом тихо занять их место за столом.
Немного контекста.
Anthropic отказался снять ограничения на использование ИИ для массовой слежки за американцами и автономного оружия. За это компания получила бан от всего федерального правительства и статус «угрозы национальной безопасности» — обозначение, которое обычно применяют к компаниям вроде Huawei.
Вся индустрия публично встала на сторону Anthropic. Сотни сотрудников Google и OpenAI подписали открытое письмо. Сэм Альтман выступил на CNBC, заявив, что «в целом доверяет Anthropic» и разделяет их красные линии. Илья Суцкевер отдельно написал, что то, как сплотились конкуренты — «крайне важно».
А спустя несколько часов после того, как Трамп забанил Anthropic, OpenAI объявляет о сделке с тем же Пентагоном. На тех же условиях, за которые Anthropic был наказан.
Альтман утверждает, что в соглашении прописаны те же ограничения — запрет на слежку и автономное оружие. Но вот что важно понимать: всё, что касается классифицированных военных сетей, по определению непрозрачно. Где именно проходят красные линии на практике, как они интерпретируются и соблюдаются — этого не увидит ни общественность, ни сотрудники, ни журналисты. Классифицированные контракты — это чёрный ящик.
И ещё один момент. Пентагон, который за день до сделки называл CEO Anthropic «лжецом с комплексом бога» за отказ снять ограничения, вдруг «проявил глубокое уважение к безопасности» в переговорах с OpenAI. Либо красные линии OpenAI на бумаге выглядят так же, но на деле оставляют Пентагону куда больше пространства. Либо дело не в условиях, а в готовности быть удобным партнёром.
В целом — это хорошая иллюстрация того, как работает Сэм Альтман. Он умеет говорить правильные слова в правильный момент. Поддержать Anthropic на камеру. А потом тихо занять их место за столом.
Переусложнение | Оверинженеринг
Описание:
Как правило когда проект создается с использованием ии агентов - он выглядит не как оптимальная реализация соответсвующая своей цели, а как "создать и разработать бесконечный аккумулятор, чтобы создать терминатора с 0 чтобы он в свою очередь автоматически включал кондиционер в вашей комнате когда вам становится жарко"
Почему такое вообще происходит? - в большинстве случаев потому что:
1. Когда вы просто "вайбкодите" т.е. вообще не заглядываете в код и просто итеративно делаете то что видите перед экраном, а ля поменять кнопку А на кнопку Б - вы видите что то что вы попросили действительно было выполнено, но в коде там вместо логичного, оптимального изменения рождается какой-то очередной Франкенштейн - вы этого не видите и продолжаете разработку, в итоге получаете не просто космический корабль из костылей а межгалактический крейсер размером с вселенную просто чтобы реализовать какой-то вполне бытовой проект🤷♂️.
- как это лечить?
1. Вместо того чтобы сразу что-то делать - задавайте агенту наводящие вопросы.Уточняйте детали,интересуйтесь возможно ли сделать проще, но при этом получить даже более эффективный результат - таким образом вы формируете его контекст и он сам начинает лучше понимать детали, даже если вы ничего не поняли.
2. Прежде чем приступать к реализации - планировать и создавать контракт документацию.Чтобы для каждого отдельного среза, для каждой отдельной реализации чего-либо был контракт документ по которому даже модель с 1млрд параметров смогла бы что-то реализовать без лишних уточнений и гаданий.
3. Валидируйте и проводите ревью своих идей и контрактов, лучше всего самостоятельно читать что там написано (часто агенты склонны писать много текста с 50% реально полезного смысла) - полезно,необходимо и намного дешевле провести технический и архитектурный аудит и валидацию плана вместо того чтобы потом реализовывать монстра несколько дней подряд и мучаться от очередного "всё работает не так как я хотел" или вообще не работает.
Хороший проект написанный агентами - это не 150 лет мучений доводя и исправляя ошибки допущенные агентами пока вы добивались того что хотели.
Хороший проект созданный агентами - это когда вы сначала создаете полный пакет контрактов, спецификаций, правил, философии проекта, создаете полный контур документации проекта так чтобы в документации ваш проект был полностью описан и формализован end-to-end и саму документацию вы проверите, желательно лично, +с несколькими агентами и уже после прохождения полного ревью, убеждаясь что это полностью соответсвует вашему намерению - Реализуете проект.
Важно:
1. Агенты чинят симптомы а не инвариант
Описание:
Как правило когда проект создается с использованием ии агентов - он выглядит не как оптимальная реализация соответсвующая своей цели, а как "создать и разработать бесконечный аккумулятор, чтобы создать терминатора с 0 чтобы он в свою очередь автоматически включал кондиционер в вашей комнате когда вам становится жарко"
Почему такое вообще происходит? - в большинстве случаев потому что:
1. Когда вы просто "вайбкодите" т.е. вообще не заглядываете в код и просто итеративно делаете то что видите перед экраном, а ля поменять кнопку А на кнопку Б - вы видите что то что вы попросили действительно было выполнено, но в коде там вместо логичного, оптимального изменения рождается какой-то очередной Франкенштейн - вы этого не видите и продолжаете разработку, в итоге получаете не просто космический корабль из костылей а межгалактический крейсер размером с вселенную просто чтобы реализовать какой-то вполне бытовой проект🤷♂️.
- как это лечить?
1. Вместо того чтобы сразу что-то делать - задавайте агенту наводящие вопросы.Уточняйте детали,интересуйтесь возможно ли сделать проще, но при этом получить даже более эффективный результат - таким образом вы формируете его контекст и он сам начинает лучше понимать детали, даже если вы ничего не поняли.
2. Прежде чем приступать к реализации - планировать и создавать контракт документацию.Чтобы для каждого отдельного среза, для каждой отдельной реализации чего-либо был контракт документ по которому даже модель с 1млрд параметров смогла бы что-то реализовать без лишних уточнений и гаданий.
3. Валидируйте и проводите ревью своих идей и контрактов, лучше всего самостоятельно читать что там написано (часто агенты склонны писать много текста с 50% реально полезного смысла) - полезно,необходимо и намного дешевле провести технический и архитектурный аудит и валидацию плана вместо того чтобы потом реализовывать монстра несколько дней подряд и мучаться от очередного "всё работает не так как я хотел" или вообще не работает.
Хороший проект написанный агентами - это не 150 лет мучений доводя и исправляя ошибки допущенные агентами пока вы добивались того что хотели.
Хороший проект созданный агентами - это когда вы сначала создаете полный пакет контрактов, спецификаций, правил, философии проекта, создаете полный контур документации проекта так чтобы в документации ваш проект был полностью описан и формализован end-to-end и саму документацию вы проверите, желательно лично, +с несколькими агентами и уже после прохождения полного ревью, убеждаясь что это полностью соответсвует вашему намерению - Реализуете проект.
Важно:
1. Агенты чинят симптомы а не инвариант
👍1
Питер, чем больше контекстное окно - тем больше ответственность
Даже если слухи магически откажутся правдой - это может не дать серьезной разницы в эффективности агентов
Даже если слухи магически откажутся правдой - это может не дать серьезной разницы в эффективности агентов
По-моему GPT-5.3 стала адекватнее в общении, исчез чрезмерный холодок в модели и излишняя корректность
Грядущее обновление Codex CLI 0.108
И вероятно GPT-5.4
Описание:
Команда Codex OpenAI невероятно спешит в последние дни (89 коммитов за 2 дня).
По коммитам видно что появятся некоторые фичи и обновления в Codex:
1. Настройка имен субагентов в конфиге и пр мелкие изменения в интерфейсе;
Новая настройка nickname_candidates в конфиге ролей агентов - При создании sub-агента ему присваивается имя из пула, привязанного к его роли.
К примеру:
- Роль "researcher" → имена: scout, librarian, analyst
- Роль "coder" → имена: builder, smith, architect
2. Artifact - Новый встроенный инструмент которые дает агенту создавать презентации и таблицы.
3. Ускорение запуска субагентов и approvals(подтверждения) для субагентов в TUI.
4. Fast Mode - можно будет выбирать "Быструю" модель - видимо речь о том что можно будет использовать полноценную гигантскую модель, вероятно GPT-5.4 запущенную на серверах Cerebras, которые дают очень существенный прирост к скорости агента (вероятно стоимость тоже будет существенная за этот режим)
5. Плагины - теперь можно будет устанавливать плагины как в Claude Code (где в 1 пакете будут Skills,mcp,apps)
6. Память - у агента в 107 появилась долгосрочная память проекта, в текущей версии она получила развитие (обнаружение устаревших фактов, обновленные настойки и тюнинг под read-path и стабильных фактов)
7. Голосовой режим доработали, фактически суть в чем. Когда вы общаетесь - вы общаетесь с голосой realtime моделью, когда голосовая модель понимает что нужно что-то сделать - она передает управление текстовой модели.Видимо до 108 такого не было.Не знаю потому что на Linux до сих пор нет голосового управления (я сижу на Linux)
8. Original resolution view_image - Раньше все изображения сжимались перед отправкой модели - теперь модель будет получать полноценное изображение без сжатия (ВАУ), т.е. агент начнет нормально всё видеть, а не как слепой кролик пытаться понять что на изображении.
И вероятно GPT-5.4
Описание:
Команда Codex OpenAI невероятно спешит в последние дни (89 коммитов за 2 дня).
По коммитам видно что появятся некоторые фичи и обновления в Codex:
1. Настройка имен субагентов в конфиге и пр мелкие изменения в интерфейсе;
Новая настройка nickname_candidates в конфиге ролей агентов - При создании sub-агента ему присваивается имя из пула, привязанного к его роли.
К примеру:
- Роль "researcher" → имена: scout, librarian, analyst
- Роль "coder" → имена: builder, smith, architect
2. Artifact - Новый встроенный инструмент которые дает агенту создавать презентации и таблицы.
3. Ускорение запуска субагентов и approvals(подтверждения) для субагентов в TUI.
4. Fast Mode - можно будет выбирать "Быструю" модель - видимо речь о том что можно будет использовать полноценную гигантскую модель, вероятно GPT-5.4 запущенную на серверах Cerebras, которые дают очень существенный прирост к скорости агента (вероятно стоимость тоже будет существенная за этот режим)
5. Плагины - теперь можно будет устанавливать плагины как в Claude Code (где в 1 пакете будут Skills,mcp,apps)
6. Память - у агента в 107 появилась долгосрочная память проекта, в текущей версии она получила развитие (обнаружение устаревших фактов, обновленные настойки и тюнинг под read-path и стабильных фактов)
7. Голосовой режим доработали, фактически суть в чем. Когда вы общаетесь - вы общаетесь с голосой realtime моделью, когда голосовая модель понимает что нужно что-то сделать - она передает управление текстовой модели.Видимо до 108 такого не было.Не знаю потому что на Linux до сих пор нет голосового управления (я сижу на Linux)
8. Original resolution view_image - Раньше все изображения сжимались перед отправкой модели - теперь модель будет получать полноценное изображение без сжатия (ВАУ), т.е. агент начнет нормально всё видеть, а не как слепой кролик пытаться понять что на изображении.
Harness engineering
Описание
Статья OpenAI по разработке с 0 участием человек, когда всей разработкой занимается исключительно агент, а не человек.
Рекомендую почитать, очень познавательно
"Стало ясно: разработка программного обеспечения по-прежнему требует дисциплины, но эта дисциплина проявляется скорее в структуре, чем в самом коде. Инструменты, абстракции и механизмы обратной связи, обеспечивающие целостность кодовой базы, приобретают все большее значение."
Описание
Статья OpenAI по разработке с 0 участием человек, когда всей разработкой занимается исключительно агент, а не человек.
Рекомендую почитать, очень познавательно
"Стало ясно: разработка программного обеспечения по-прежнему требует дисциплины, но эта дисциплина проявляется скорее в структуре, чем в самом коде. Инструменты, абстракции и механизмы обратной связи, обеспечивающие целостность кодовой базы, приобретают все большее значение."
Magray
Harness engineering Описание Статья OpenAI по разработке с 0 участием человек, когда всей разработкой занимается исключительно агент, а не человек. Рекомендую почитать, очень познавательно "Стало ясно: разработка программного обеспечения по-прежнему требует…
AGENTS.md | CLAUDE.md
Описание:
Когда агент ограничен множеством разнообразных правил и разнобойных знаний в контексте каждое отдельное правило имеет всё меньшую силу и влияние на агента - и его эффективность в целом начинает значительно падать т.к. "внимание" - основной ресурс агентов начинает распыляться и агент начинает говнокодить, не потому что глупый, а потому что пытается делать всё и вся, как ехать за рулем и пытаться танцевать одновременно.
Поэтому в статье Harness engineering - инженеры OpenAI рекомендуют делать из AGENTS.md не сводку MUST/SHOULD и "энциклопедию всех знаний", а только структурную карту проекта. Так агент самостоятельно узнает необходимую для конкретной задачи информацию тогда когда она ему нужна = наилучшая свежесть и плотность контекста = агент работает значительно более эффективно.
Описание:
Когда агент ограничен множеством разнообразных правил и разнобойных знаний в контексте каждое отдельное правило имеет всё меньшую силу и влияние на агента - и его эффективность в целом начинает значительно падать т.к. "внимание" - основной ресурс агентов начинает распыляться и агент начинает говнокодить, не потому что глупый, а потому что пытается делать всё и вся, как ехать за рулем и пытаться танцевать одновременно.
Поэтому в статье Harness engineering - инженеры OpenAI рекомендуют делать из AGENTS.md не сводку MUST/SHOULD и "энциклопедию всех знаний", а только структурную карту проекта. Так агент самостоятельно узнает необходимую для конкретной задачи информацию тогда когда она ему нужна = наилучшая свежесть и плотность контекста = агент работает значительно более эффективно.
Openai
Harness engineering: leveraging Codex in an agent-first world
By Ryan Lopopolo, Member of the Technical Staff
GPT 5.4 1 млн контекста
У модели действительно 1 млн контекстное окно так же модель естественно лучше всех на рынке по бенчам:
83.0% on GDPval
75.0% on OSWorld-Verified
57.7% on SWE-Bench Pro (Public)
54.6% on Toolathlon
Но бенчи такое..реальность может быть другой
У модели действительно 1 млн контекстное окно так же модель естественно лучше всех на рынке по бенчам:
83.0% on GDPval
75.0% on OSWorld-Verified
57.7% on SWE-Bench Pro (Public)
54.6% on Toolathlon
Но бенчи такое..реальность может быть другой
👍3
Magray
Питер, чем больше контекстное окно - тем больше ответственность Даже если слухи магически откажутся правдой - это может не дать серьезной разницы в эффективности агентов
1 млн контекстного окна
Фактически так и вышло, дальше 256к контекста модель начинает показывать значительное ухудшение результатов при том что вы платите двойной тариф за использование контекстного окна выше 256к. Поэтому это явно не рационально. Можно использовать эту возможность как попытки проанализировать какое-то огромное кол-во кода или данных. Для реальной работы лучше продолжать пользоваться прежним размером контекстного окна
Фактически так и вышло, дальше 256к контекста модель начинает показывать значительное ухудшение результатов при том что вы платите двойной тариф за использование контекстного окна выше 256к. Поэтому это явно не рационально. Можно использовать эту возможность как попытки проанализировать какое-то огромное кол-во кода или данных. Для реальной работы лучше продолжать пользоваться прежним размером контекстного окна
👍3
Значительно увеличились лимиты Codex
Описание:
Не видел чтобы где-то OpenAi это анонсировали,но по субъективным ощущениям - лимиты codex сейчас начали ощущаться как будто раза в 3-4 больше,чем были раньше.Есть у кого-нибудь такое же ощущение?
Описание:
Не видел чтобы где-то OpenAi это анонсировали,но по субъективным ощущениям - лимиты codex сейчас начали ощущаться как будто раза в 3-4 больше,чем были раньше.Есть у кого-нибудь такое же ощущение?
🔥2