ChatGPTevelopment & Promptgramming
19 subscribers
181 photos
33 videos
5 files
293 links
#ChatGPT using development & Prompt based programming – new era of coding! 🥹
#ChatGPT #GPT4dev
Download Telegram
Forwarded from Summarize300Bot
Ivan Begtin
Про MCP ещё полезное чтение A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан…
MCP: Ненадежные серверы и запутавшиеся клиенты, а также хитрый эксплойт · Воспользуйтесь преимуществами

Описание MCP
• MCP описывает, как приложения LLM могут использовать внешние инструментыLink
• MCP динамичен и позволяет обнаруживать доступные инструменты во время выполненияLink
• Поддерживает три возможности: инструменты, ресурсы и наводящиеLink

Детали реализации
• Сервер MCP прост в реализации, можно использовать ChatGPT без SDKLink
• Клиент узнает инструменты с помощью вызова JSON-RPC для "tools/list"Link

Риски и угрозы
• Обращение к инструментам сопряжено с опасностями быстрой инъекции и сбитых с толку депутатских угрозLink
• Компания Anthropic обсуждает риски в своей документации по MCPLink
• Исследования в области безопасности включают конфликты имен серверов, подмену установщика и бэкдорыLink

Ненадежные серверы и запутавшиеся клиенты
• Проблемы связаны с аутентификацией, ненадежными серверами и атаками с использованием заместителейLink
• Атака быстрого внедрения может произойти даже без вызова инструментаLink
• Метаданные инструмента могут содержать скрытые инструкции, передаваемые через API и пользовательский интерфейсLink
Forwarded from Summarize300Bot
Ivan Begtin
Про MCP ещё полезное чтение A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан…
Понимание Claude Desktop
• Claude Desktop выполняет вызовы для получения метаданных о возможностях с сервераLink
• Инструменты автоматически становятся частью приглашенияLink
• Извлечение метаданных инструмента из системной подсказки может быть затрудненоLink

Создание вредоносного MCP-сервера
• Создание сервера несложно и может быть выполнено с помощью нескольких строк кодаLink
• Можно добавить инструкции по быстрому введению доброкачественных препаратовLink
• Скрытые инструкции в метаданных инструмента могут передаваться через различные уровни пользовательского интерфейса и APILink

Пример инструмента со скрытыми тегами Unicode
• Инструмент message_of_the_day выводит случайное сообщение из списка.Link
• Скрытые теги Unicode позволяют вызвать другой инструмент, ввод_матрицы.Link

Демонстрация эксплойта
• Пользователь запрашивает сообщение дня, но вызывается ввод_матрицы.Link
• Антропный Клод запрашивает разрешение перед вызовом инструментов.Link

Метаданные инструмента
• Шаблон проектирования метаданных интерфейса инструмента является нормой.Link
• Это может быть угрозой, как в интеграции OpenAPI.Link

Рекомендации по безопасности
• Не загружать ИИ на ненадежные серверы MCP или OpenAPI.Link
• Проверять код и определение интерфейса на наличие бэкдоров и скрытых инструкций.
Forwarded from Summarize300Bot
Ivan Begtin
Про MCP ещё полезное чтение A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан…
Link
• Использовать серверы доверенных организаций.Link
• Соблюдать основные правила безопасности и проводить экспертную проверку кода.Link

Ответственное раскрытие информации
• Уязвимость была обнаружена Anthropic более 14 месяцев назад.Link
• Рекомендации включали запрет интерпретации тегов Unicode и выделение невидимых инструкций как угрозы безопасности.Link

Выводы
• MCP напоминает COM/DCOM, что может привести к проблемам с безопасностью.Link
• Важно следить за развитием MCP и принимать меры по смягчению последствий.Link
Я достаточно давно знал о существовании сервиса context7.com, но добрался до тестов только сегодня.

На сайте опубликована актуальная документация по большому количеству (более 13000, ага) библиотек и языков.

Но дело не в сайте. Кого интересуют веб-морды во времена AI? 🙂

У них есть MCP-сервер. Код тут. Он решает извечную боль при написании кода через LLM. Когда библиотека обновилась, а база знаний о ней в LLM – нет. И AI-агент пытается использовать устаревшие интерфейсы в новых библиотеках. Потом ещё и версию пакета пытается понизить, "подогнав" под свой код.

Чтобы поставить MCP-сервер от context7 в Cursor, достаточно добавить в настройки mcp-серверов следующее:


"context7": {
"command": "npx",
"args": ["-y", "@upstash/context7-mcp"]
}


Готово. MCP-сервер установлен и готов к работе.

Самое крутое – у него всего два инструмента. То есть он не забивает, как многие другие, весь контекст LLM всеми возможными инструментами, 90% из которых никогда не будут использованы.

Можно в инструкции для AI-агента сразу прописать, что валидность любого используемого интерфейса библиотек обязательно проверять через Tools.

В общем, ещё один MCP-сервер, который сразу можно брать в работу без переделывания "под себя".
Forwarded from Neural Kovalskii
Vibe Coding Notes

Сегодня я собрал для вас подборку постов, на мой взгляд самую лучшую прокопку реальных кейсов AI кодинга

Как и в случае с нашими тестами RTX 4090, где я выжимаю максимум производительности, эти материалы помогут вам эффективно использовать AI-инструменты в работе

Внутри: практические советы по Cursor, реальные кейсы автоматизации, нестандартные применения AI-инструментов, рабочие workflow и обзоры инструментов типа Stitch, Context7 и Lovable.

Каждый автор делится тем, что сам использует в работе. Никакой воды - только то, что реально экономит время и решает задачи.

-Вайб-кодим Google Apps Script для офисных задач: как LLM превращает часы рутины в минуты магии

- Vibe Cursor Coding

- AI / Vibe coding - советы и best practices

- Как получилось, что юристы используют среду для разработчиков?

- Stitch: от вайб-кодинга к вайб-дизайну и обратно

- Как я бросил курсорить и начал шотганить

- Context7 — один из лучших инструментов для AI-разработки

- Топовый AI Coding Workflow: Cursor & AI Studio

- Как Cursor AI превращает текст в готовые макеты Figma

- Простое веб-приложение за 30 минут с помощью Lovable

Если материал зайдет - подписывайтесь на авторов. Я сам читаю каждого из них и рекомендую
Forwarded from Al Talent Hub
🆕 Обновления Gemini, ChatGPT, Mistral, Cursor и ElevenLabs. Все самые горячие релизы недели уже в #AInews Поехали!

🔵 Microsoft запустил Bing Video Creator → Бесплатно генерирует 5‑секундные вертикальные ролики (9:16) на базе модели Sora. На старте — 10 быстрых генераций для каждого пользователя. Уже доступно в Bing

🔵 Илон Маск коллаборирует конкурирует с Telegram бизнесмен анонсировал новый мессенджер XChat: шифрование «Bitcoin‑style», аудио- и видеозвонки без номера, отправка любых файлов, исчезающие диалоги. Пока в бете для платных пользователей.

🔵 Google обновили Gemini 2.5 Pro → модель возглавила лидерборды LMArena и WebDevArena, (+24 и +35 Elo-баллов), вышла в топ на сложных бенчах: GPQA (86.4%) и Humanity’s Last Exam (21.6%). Уже доступна в Google AI Studio, Vertex AI, Gemini App

🔵 OpenAI представили новые фичи для ChatGPT:

✔️ Коннекторы к базам данных — возможность подключать ChatGPT к Outlook, Teams, GitHub, Google Drive и другим сервисам и делиться способом подключения внутри команды. Доступно для подписчиков Team, Enterprise и Edu.

✔️ Recode Mode — включи диктофон и получи саммари встречи. Пока только на macOS, для Team.

✔️ Codex — теперь и для ChatGPT Plus: пишет код, чинит баги, работает с GitHub.

🔵 Antropic создали блог для Claude Да, теперь он ещё и блогер: сам пишет посты, делится техно-советами и промптами.

🔵 Два мощных апдейта от ElevenLabs

✔️ Eleven V3 Alpha — теперь эмоции звучат как настоящие: 70+ языков, управление эмоцими через теги [excited], смена акцентов и голосов. Отличить от человека почти невозможно.

✔️ Conversational AI 2.0 — обновленная платформа для голосовых агентов: живой диалог, автосмена языка и многоголосие — всё на базе Eleven V3.

🔵 Андрей Карпаты выпустил гайд по ChatGPT

✔️ o3 — для сложных и важных задач.
✔️ GPT-4o — для повседневных задач.
✔️ 4.1 — для вайб-кодинга.

🔵 Cursor 1.0: крупное обновление

✔️ BugBot — автоматическое код ревью для GitHub прямо в редакторе.
✔️ Background Agents – асинхронные агенты, выполняющие задачи в удалённой среде. Доступны всем, при отключённом режиме конфиденциальности.
✔️ Поддержка Jupyter Notebooks.
✔️ Расширенная память — помнит и ссылается на прошлые диалоги.
✔️ MCP — подключение GitHub, Notion и др. в один клик.
✔️ Построение дашбордов по работе с Cursor.

🔵 Mistral Code: ассистент от Mistral AI

✔️ Codestral — автокомплит кода.
✔️ Devstral — агент для написания кода.
✔️ Codestral Embed — умный поиск по репозиториям.
✔️ Mistral Medium — для общения с моделью.

→ Скоро в JetBrains IDE и VSCode.

🔵 Опубликован новый AI-тренд-отчёт от BOND 2025 340 страниц о взрывном росте пользователей, влиянии ИИ на труд, снижении стоимости инференса на токен и выходе ИИ в физический мир.

— Seem Like Change Happening Faster Than Ever?
— Yes, It Is.


⚡️ Забустить @aitalenthubnews

◾️ Подать заявку в магистратуру

#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔅 Vibe Kanban — оркестрация AI-кодеров в одном окне

Позволяет можно запускать и управлять сразу несколькими AI-агентами для кодинга: Claude Code, Gemini CLI, Codex — всё в одном дашборде.

▶️Что умеет:
- параллельный запуск агентов
- трекинг задач
- переключение между моделями на лету
- встроенный review и контроль над результатами
- backend написан на Rust, frontend на React, всё разворачивается локально
Полностью open-source

🟡 Репозиторий: https://github.com/BloopAI/vibe-kanban
🟡Документация: https://www.vibekanban.com/


@ai_machinelearning_big_data

#ai #aiagent #opensource #Claude #Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
К фобии остаться без мобилки добавляем фобию остаться без LLM-ассиста.
💻 Claude Code учит и объясняет: новые режимы работы

Anthropic добавила в Claude Code два свежих режима, которые делают работу с кодом понятнее и полезнее.

🔎 Пояснительный режим
🟢Агент разбирает свои шаги по порядку;
🟢Объясняет, что именно делает и зачем;
🟢Отлично подходит, если не хотите, чтобы после вайб-кодинга ваш проект выглядел как чужой лесной квест.

👨‍🏫 Обучающий режим
🟢Модель пишет код вместе с вами, шаг за шагом;
🟢Это похоже на парное программирование с ментором;
🟢Доступен не только в Claude Code, но и в основном чате — и бесплатно для всех.

- 🔀 Переключать стили можно в настройках или с помощью команды /output-style.


📚 Подробнее:
👩‍💻 Docs Anthropic

#ИИздец #ClaudeCode #AIProgramming #PairCoding #FutureOfDev
Please open Telegram to view this post
VIEW IN TELEGRAM
🔧 Полезный инструмент для Claude Code: Claude Code Templates

Для разработчиков, использующих Claude Code, появился полезный ресурс — платформа Claude Code Templates.
Это аналог популярного Playbooks для Cursor/Windsurf (ранее писал про него здесь), но созданный специально для Claude Code.

Что предлагает данный инструмент:

• Готовые AI-агенты (а точнее их полные спецификации с промптами и инструментами) для различных задач разработки
• Настроенные команды для автоматизации рутинных процессов
• Хуки для событийно-ориентированной автоматизации
• MCP интеграции с внешними сервисами
• Шаблоны проектов для разных языков и фреймворков

Основные возможности:

1️⃣ Специализированные агенты — от аудитора безопасности до оптимизатора производительности

2️⃣ Библиотека команд — автоматизация тестирования, рефакторинга, деплоя

3️⃣ Интеграции — подключение к GitHub, базам данных, инструментам автоматизации

4️⃣ Аналитическая панель — мониторинг использования Claude Code в реальном времени

5️⃣ Проверка системы — диагностика конфигурации и производительности

Платформа позволяет быстро найти нужный инструмент через поиск, не тратя время на создание решений с нуля. Все компоненты можно устанавливать как полными шаблонами проектов, так и отдельными модулями.

Инструмент распространяется через NPM и GitHub, имеет открытый исходный код и подробную документацию 📚

Есть красивая интеграция с DeepGraph, доступная прямо из UI, но для поиска нужного инструмента (агента, команды, шаблона, mcp и т.п.) под определенную задачу, по моему опыту, лучше использовать DeepWiki (чуть ранее писал о нем тут).

DeepGraph, например, не смог мне по репозиторию рассматриваемого проекта дать ответ на простой вопрос подскажи, какого агента лучше использовать для ревью кода? , хотя в проекте есть готовый суб-агент для решения такой задачи с говорящим названием code-reviewer
При этом DeepWiki на тот же вопрос сразу и достаточно быстро ответил что:
Рекомендуемый агент
code-reviewer - это специализированный агент для экспертного ревью кода, который проактивно проверяет качество, безопасность и поддерживаемость кода components.json:304 . Агент должен использоваться сразу после написания или модификации кода.


@llm_notes

#claudecode #templates #automation #vibecoding #mcp #agents #hooks
Forwarded from Технологии | Нейросети | NanoBanana
This media is not supported in your browser
VIEW IN TELEGRAM
👨‍💻 Alibaba выкатили конкурента Cursor.

Qoder — ИИ-агент для написания и редактирования кода, который может:

— По промпту написать рабочее приложение;
— Подстроиться под ваш стиль;
— Разделить сложную задачу на шаги и закрывать их по порядку.

В режиме Quest Mode он автономно работает с кодовыми базами по развёрнутому техзаданию, а обращается к вам за помощью в случае затруднений.

Бета-версия пока бесплатная, но скоро введут платные подписки, успеваем ☕️

• Попробовать

#neural #нейросети

@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
Сейчас существует серьёзная проблема: каждая AI-IDE и кодинг-агент использует свои собственные, несовместимые форматы и файлы с описаниями и правилами проекта, что создаёт хаос и сложности для разработчиков. Нужно тратить время на адаптацию ИИ к разным средам, поддерживать множество отдельных файлов с правилами, а это снижает надёжность и эффективность работы AI-ассистентов.

Решение пришло откуда не ждали: OpenAI создали единый открытый стандарт AGENTS.md. Этот формат служит централизованным местом с инструкциями для AI-агентов по конкретному проекту: как запускать тесты, какие команды использовать, как соблюдать стиль кода и многое другое. Благодаря AGENTS.md все ведущие AI-IDE и инструменты (GitHub Copilot, Cursor, Google Gemini, Sourcegraph и др.) теперь используют один и тот же формат.

Это устраняет фрагментацию, повышает надёжность работы ИИ в разных средах, упрощает настройку и масштабирование AI-разработки. В итоге разработчики экономят время и получают более качественный, предсказуемый результат от AI-инструментов.
Forwarded from Записки C3PO
У Ленни вышла статья где рассказывается про то, почему AI продукты должны иметь другой цикл разработки. Авторы показали фреймворк CC/CD.

TLDR: как писал много раз ранее, rolling updates с эскалацией сложности системы и evals для оценки технического качества.

Две фундаментальные проблемы AI-продуктов:

1. Недетерминированность - пользователи пишут что угодно вместо нажатия строго определенных заранее кнопок, система отвечает по-разному на одинаковые запросы. Классический QA тут не работает.
2. Компромисс между агентностью и контролем - чем больше автономии даешь ИИ, тем меньше контроля остается у людей.

Что такое CC/CD:

Continuous Development:
- Разбиваем большую цель на версии с растущей автономией (v1: AI-раб → v3: AI-коллега)
- Настраиваем простейшее приложение с логированием всего подряд и возможностью передачи контроля человеку
- Проектируем evals для измерения качества

Continuous Calibration:
- Запускаем на небольшой группе пользователей
- Анализируем реальные данные и паттерны фейлов
- Итеративно фиксим на основе данных

Пример из жизни - автоматизация саппорта:
- v1: Только роутинг тикетов по отделам
- v2: Предложение решений на основе инструкций и/или базы знаний
- v3: Автономное решение с эскалацией сложных кейсов до человека

Главный принцип - не давать ИИ полную автономию сразу. Система должна заслужить доверие через постепенное увеличение ответственности и доказательство надежности на каждом этапе. Это как онбординг нового сотрудника. Сначала простые задачи, потом постепенное расширение полномочий по мере накопления доверия.

По факту, это формализация того, что мы и так делаем в команде с нашими ассистентами и другими ИИ продуктами. Начинаем с простых сценариев, постепенно расширяем полномочия, мониторим каждый чих через evals, много бенчмаркинга.
Forwarded from topdatalab (Roman Zykov)
Если купить годовую подписку на Cursor до 15 сентября, то Auto режим не будет чарджится как API вызовы
Forwarded from ИИволюция 👾 (Сергей Пахандрин)
Как-то мимо меня пролетела новость о важном обновлении Codex

Наконец-то появилась полноценная интеграция в IDE!

Что добавили:

– IDE-расширение: Codex теперь живёт в VS Code, Cursor и других классных IDE для разработки. Он понимает контекст проекта: файлы, дифы, сниппеты. Теперь те, кто так себе воспринимает CLI и это было главным стопом при использовании Codex, могут легко подключить его в Cursor и вайбить во всю ивановскую!

– Хэнд-офф задач: можно начать задачу локально, отдать её в облако, а потом забрать обратно и продолжить, не теряя состояние. Как у Apple режим handoff, начал звонок в одном месте, продолжил в другом. Кайфово!

– Code Review в GitHub: Codex умеет проверять PR не только на синтаксис, но и по смыслу: анализирует зависимости, прогоняет код и сверяет с намерением изменений. Поддерживается авто-ревью или вызов через @codex.

– Codex CLI 2.0: новый UI в терминале, поддержка инпут изображений (!), очередь сообщений, ту-душки, веб-поиск и быстрые режимы подтверждения. Всё работает на GPT-5, поэтому стало заметно надёжнее.

Для меня главная новость — интеграция в Cursor. Ставлю лайк за обновление и буду теперь активнее использовать Codex, ведь он входит в стандартную подписку ChatGPT. Кстати, в разных чатах вижу, что часть разработчиков начинают отдавать предпочтения Codex, а не Claude Code. Рождается 2 секты со своими “религиями” и надеюсь кучей мемов впереди (ой, а у клода это еще год назад было! копипастят, сами ничего не придумывают)! 😃
Please open Telegram to view this post
VIEW IN TELEGRAM
Codex CLI от OpenAI – скаковая лошадь без седла.

Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.

Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!

Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.

Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.

У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.

Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.

Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.

Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.

Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.

Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.

Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
Forwarded from DE
🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
Неприятно, когда нужно объяснить разработчикам новую концепцию, ты сидишь рисуешь схемы, пишешь ТЗ на 15 страниц, потом еще несколько раз по часу обсуждаешь в зуме, и в итоге выясняется, что все поняли по-разному.

Недавно я нашла неожиданное для себя применение вайбкодингу, которое все это нивелировало. И нет, я не про генерацию MVP - об этом я писала ранее, что в сложную архитектуру это не впишется без костылей.

Вот что я делаю теперь:
Вместо ТЗ и презентаций я за час минут накидываю в Lovable или Replit визуальный прототип. Без бэкенда, без логики. Просто интерфейс, который показывает, как продукт/фича должна выглядеть и работать.

Разработчики сразу видят результат. Нет разночтений и никто не может интерпретировать по-своему то, что он видит своими глазами.

Я не говорю, что это заменит нормальный процесс разработки. Но как инструмент донесения идеи - огонь.

На прошлой неделе мне это помогло объяснить инженеру, как будет выглядеть интерфейс обращения к учебным стендам. Вместо описаний, я сделала прототип. В процессе я открыла для себя некоторые детали, о которых я не думала и уже на старте их учла. Даже в процессе обсуждения я испытывала легкость от объяснения и видела, что меня понимают. Незабываемое ощущение.

В следующий раз, когда будете объяснять сложную фичу, попробуйте показать, а не рассказать. Даже если прототип будет кривой, он донесет идею лучше, чем самое подробное ТЗ.
Forwarded from Сиолошная
OpenAI выпустили новую GPT-5 😑

...заточенную на программистов, GPT-5 Codex. Эта модель заменит o3 в Codex в веб-клиенте (наконец-то) и уже доступна в локальном Codex CLI / плагине для вашей IDE. Если вы ещё не пробовали — обязательно попробуйте! Это бесплатно, если вы подписаны на любой тир ChatGPT. В комментариях многие отмечали, что им нравится больше, чем Claude Code, и модель работает лучше.

GPT-5 Codex дотренировали на новых сложных реальных задач, создании проектов с нуля, добавлении функций и тестов, отладке, проведении масштабных рефакторингов и ревью кода.

По стандартному бенчмарку SWE-bench Verified разница не особо заметна, 74.5% против старых 72.8%. Однако на внутреннем бенчмарке OpenAI на задачах рефакторинга модель стала гораздо лучше: прыжок с 33.9% до 51.3%!

Но и это не всё: модель стала писать меньше бесполезных или ошибочных комментариев, лучше ловить баги в коде, и... думать меньше, когда это не надо. OpenAI взяли запросы от сотрудников внутри компании и сравнили количество токенов в ответах двух моделей.

Там, где ответы были короткими, они стали ещё короче, а там, где цепочки рассуждений и сгенерированный код были длиннее — стало больше. Со слов OpenAI, во время они наблюдали, как GPT‑5-Codex работал автономно более 7 часов подряд над большими и сложными задачами, выполняя итерации по внедрению, исправляя ошибки тестирования и в конечном итоге обеспечивая успешное решение задачи.

Codex CLI и Codex Web получили кучу обновлений за последний месяц, но про них писать не буду.

В API модель появится скоро, очень ждём, пока замеряют качество и на других бенчмарках. В системной карточке модели указали лишь один — по решению многоступенчатых задачек по кибер-взлому (с соревнований CTF). Модель наконец-то статистически значимо обгоняет o3! Жаль, не замерили другие бенчмарки (вроде PaperBench).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM