OpenAI анонсировала GPT-5.6 Sol, Terra и Luna
• Sol — новый флагман для сложных агентных задач
• Появятся режимы max reasoning и ultra с сабагентами
• Главный фокус Sol — кодинг, биология и кибербезопасность
• Доступ пока ограничен по запросу правительства США
• Цены: от $1 до $30 за 1M токенов в зависимости от модели
• В июле Sol запустят на Cerebras со скоростью до 750 токенов/сек
• Sol — новый флагман для сложных агентных задач
• Появятся режимы max reasoning и ultra с сабагентами
• Главный фокус Sol — кодинг, биология и кибербезопасность
• Доступ пока ограничен по запросу правительства США
• Цены: от $1 до $30 за 1M токенов в зависимости от модели
• В июле Sol запустят на Cerebras со скоростью до 750 токенов/сек
🔥4
Отзыв о GPT-5.6 от создателя OpenCode
• Dax пишет, что обычно не разгоняет хайп вокруг новых моделей. Но GPT-5.6 заметно изменила работу их команды.
• Самое важное: он не считает, что модель сама пишет хороший код. Ему нравится не результат «из коробки», а процесс, в котором с моделью можно дойти до хорошего решения.
• По его словам, GPT-5.6 лучше понимает задачу и меньше теряет детали. Она также находит вещи, о которых разработчик мог забыть.
• При этом проблемы остались: модель всё еще может перестраховываться и писать лишнее. Иногда после нее приходится делать отдельный проход и удалять половину кода.
• Самый показательный факт — использование токенов в их команде выросло в 5 раз. Это похоже на главный сигнал: модель стала не идеальным автором кода, а более удобным помощником в работе над ним.
• Dax пишет, что обычно не разгоняет хайп вокруг новых моделей. Но GPT-5.6 заметно изменила работу их команды.
• Самое важное: он не считает, что модель сама пишет хороший код. Ему нравится не результат «из коробки», а процесс, в котором с моделью можно дойти до хорошего решения.
• По его словам, GPT-5.6 лучше понимает задачу и меньше теряет детали. Она также находит вещи, о которых разработчик мог забыть.
• При этом проблемы остались: модель всё еще может перестраховываться и писать лишнее. Иногда после нее приходится делать отдельный проход и удалять половину кода.
• Самый показательный факт — использование токенов в их команде выросло в 5 раз. Это похоже на главный сигнал: модель стала не идеальным автором кода, а более удобным помощником в работе над ним.
❤3
GPT 5.6 Sol vs Mythos: без явного победителя
По цифрам нет разгрома ни в одну сторону. GPT 5.6 Sol выглядит сильнее в задачах на работу в терминале и немного обходит Claude Mythos в CyberGym.
Но в киберэксплуатации и медицине преимущество остается за Mythos / Fable 5.
При этом я бы не делал больших выводов только по бенчмаркам.
Сейчас важнее реальные отзывы разработчиков, поведение модели в длинных задачах и собственный тест в рабочих сценариях.
По цифрам нет разгрома ни в одну сторону. GPT 5.6 Sol выглядит сильнее в задачах на работу в терминале и немного обходит Claude Mythos в CyberGym.
Но в киберэксплуатации и медицине преимущество остается за Mythos / Fable 5.
При этом я бы не делал больших выводов только по бенчмаркам.
Сейчас важнее реальные отзывы разработчиков, поведение модели в длинных задачах и собственный тест в рабочих сценариях.
❤4
Codex сбросил лимиты
Признали проблему с повышенным потреблением лимитов, но заявили, что она не была массовой.
Признали проблему с повышенным потреблением лимитов, но заявили, что она не была массовой.
🔥3
Трамп умер от бешенства - спасибо Reddit и ИИ
ИИ-поисковики на время поверили, что Дональд Трамп и Джей Ди Вэнс умерли от бешенства.
Источник фейка - сабреддит r/poisonai, где около 45 000 пользователей специально публикуют абсурдную ложь серьёзным тоном. Так они пытаются отравлять ИИ-поиск и проверять, начнёт ли он выдавать выдумки за факты.
На этот раз они придумали историю, что Вэнс укусил Трампа по совету Роберта Кеннеди-младшего, потому что бешенство якобы даёт человеку сверхспособности.
Фейк подхватил псевдоновостной сайт WKNA. После этого DuckDuckGo и ИИ-поиск Brave начали выдавать историю как реальный факт - уже со ссылками на источник.
DuckDuckGo признал, что поисковик намеренно обманули, и заявил, что проблема уже исправлена. Brave ответил проще: поисковики не оракулы истины.
ИИ-поисковики на время поверили, что Дональд Трамп и Джей Ди Вэнс умерли от бешенства.
Источник фейка - сабреддит r/poisonai, где около 45 000 пользователей специально публикуют абсурдную ложь серьёзным тоном. Так они пытаются отравлять ИИ-поиск и проверять, начнёт ли он выдавать выдумки за факты.
На этот раз они придумали историю, что Вэнс укусил Трампа по совету Роберта Кеннеди-младшего, потому что бешенство якобы даёт человеку сверхспособности.
Фейк подхватил псевдоновостной сайт WKNA. После этого DuckDuckGo и ИИ-поиск Brave начали выдавать историю как реальный факт - уже со ссылками на источник.
DuckDuckGo признал, что поисковик намеренно обманули, и заявил, что проблема уже исправлена. Brave ответил проще: поисковики не оракулы истины.
😁7
OpenAI расследует проблемы с лимитами Codex
Тибо написал, что команда Codex в воскресенье собралась в свой военный штаб: изучают логи и ищут причины, из-за которых у части пользователей мог быстрее расходоваться лимит.
Пока расследование продолжается, OpenAI разово полностью сбросила лимиты Codex всем пользователям.
Самое смешное: эта неделя в OpenAI называется RESET week. В американской корпоративной культуре это время, когда сотрудники должны немного перезагрузиться: меньше созвонов, меньше давления, больше воздуха.
Тибо написал, что команда Codex в воскресенье собралась в свой военный штаб: изучают логи и ищут причины, из-за которых у части пользователей мог быстрее расходоваться лимит.
Пока расследование продолжается, OpenAI разово полностью сбросила лимиты Codex всем пользователям.
Самое смешное: эта неделя в OpenAI называется RESET week. В американской корпоративной культуре это время, когда сотрудники должны немного перезагрузиться: меньше созвонов, меньше давления, больше воздуха.
🙏4
Должности больше не работают - так считает Борис Черный, глава Claude Code
Его мысль: старое деление на инженеров, дизайнеров, менеджеров продукта и аналитиков становится слишком грубым.
В Anthropic он видит, как с развитием AI границы между ролями начинают размываться.
В реальности человек ценен не названием роли, а тем, как он двигает продукт.
Борис предлагает смотреть на команду через пять типов:
• Придумыватель
Находит новые идеи и быстро делает первые версии.
• Строитель
Доводит идею до продукта.
• Чистильщик
Упрощает, удаляет лишнее, делает систему чище и быстрее.
• Выращиватель
Берет работающий продукт и шаг за шагом улучшает его.
• Хранитель
Отвечает за надежность, безопасность и масштабирование зрелой системы.
Это хорошая рамка: она объясняет реальность лучше, чем должности.
В команде может быть много инженеров, но не хватать строителя.
Может быть сильный дизайн, но не хватать чистильщика.
И наоборот: человек может быть в одной профессии, а закрывать другую роль для продукта.
Его мысль: старое деление на инженеров, дизайнеров, менеджеров продукта и аналитиков становится слишком грубым.
В Anthropic он видит, как с развитием AI границы между ролями начинают размываться.
В реальности человек ценен не названием роли, а тем, как он двигает продукт.
Борис предлагает смотреть на команду через пять типов:
• Придумыватель
Находит новые идеи и быстро делает первые версии.
• Строитель
Доводит идею до продукта.
• Чистильщик
Упрощает, удаляет лишнее, делает систему чище и быстрее.
• Выращиватель
Берет работающий продукт и шаг за шагом улучшает его.
• Хранитель
Отвечает за надежность, безопасность и масштабирование зрелой системы.
Это хорошая рамка: она объясняет реальность лучше, чем должности.
В команде может быть много инженеров, но не хватать строителя.
Может быть сильный дизайн, но не хватать чистильщика.
И наоборот: человек может быть в одной профессии, а закрывать другую роль для продукта.
🔥6
РЕЛИЗ: Claude Sonnet 5
• Новый Sonnet стал сильнее в агентных задачах: планирует работу, использует браузер и терминал, работает с инструментами, сам проверяет результат и дольше ведёт сложные задачи
• По уровню модель приблизилась к Opus 4.8: в бенчмарках по кодингу, работе с компьютером и задачам с инструментами разрыв уже небольшой
• Стандартная цена Sonnet 5 в API — $3/$15 за 1M токенов. На старте действует 30% скидка. Opus 4.8 дороже — $5/$25
• Новый Sonnet стал сильнее в агентных задачах: планирует работу, использует браузер и терминал, работает с инструментами, сам проверяет результат и дольше ведёт сложные задачи
• По уровню модель приблизилась к Opus 4.8: в бенчмарках по кодингу, работе с компьютером и задачам с инструментами разрыв уже небольшой
• Стандартная цена Sonnet 5 в API — $3/$15 за 1M токенов. На старте действует 30% скидка. Opus 4.8 дороже — $5/$25
🔥3❤2
Timeweb Голландия заработал, начинаю постить, что накопилось ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude Fable возвращается!
Anthropic сняла ограничения с Claude Fable 5 и Mythos 5 после решения правительства США.
Fable снова будет доступна пользователям Claude с сегодняшнего дня.
До 7 июля модель входит в недельные лимиты, после этого доступ перейдет на API.
Блокировка началась после отчета Amazon: исследователи нашли обход защиты Fable в задачах кибербезопасности.
Anthropic утверждает, что обход не давал возможностей уровня Mythos. Компания уже добавила новый классификатор безопасности, который блокирует этот метод более чем в 99% случаев.
Anthropic также готовит общий стандарт оценки AI-джейлбрейков.
Anthropic сняла ограничения с Claude Fable 5 и Mythos 5 после решения правительства США.
Fable снова будет доступна пользователям Claude с сегодняшнего дня.
До 7 июля модель входит в недельные лимиты, после этого доступ перейдет на API.
Блокировка началась после отчета Amazon: исследователи нашли обход защиты Fable в задачах кибербезопасности.
Anthropic утверждает, что обход не давал возможностей уровня Mythos. Компания уже добавила новый классификатор безопасности, который блокирует этот метод более чем в 99% случаев.
Anthropic также готовит общий стандарт оценки AI-джейлбрейков.
🔥4
Google выпустила Nano Banana 2 Lite
Новая модель генерирует картинку примерно за 4 секунды и стоит $0,034 за изображение в 1K.
В Gemini она доступна через выбор 3.1 Flash Lite.
Главный сценарий - быстрые черновики: прогнать несколько промптов, выбрать лучший вариант и потом отправить его на доработку в Nano Banana 2 или GPT Image.
По качеству Lite почти не отстает от полной версии: 1251 Elo против 1270 у Nano Banana 2 на lmarena.
Новая модель генерирует картинку примерно за 4 секунды и стоит $0,034 за изображение в 1K.
В Gemini она доступна через выбор 3.1 Flash Lite.
Главный сценарий - быстрые черновики: прогнать несколько промптов, выбрать лучший вариант и потом отправить его на доработку в Nano Banana 2 или GPT Image.
По качеству Lite почти не отстает от полной версии: 1251 Elo против 1270 у Nano Banana 2 на lmarena.
ИИ уже автоматизирует 16% фриланс-задач
CAIS обновил Remote Labor Index — бенчмарк, где AI-агенты выполняют реальные заказы: дизайн, видео, CAD, архитектуру, аналитику и веб-приложения.
Работы проверяют люди и сравнивают с результатом профессионала, который устроил бы платящего клиента.
Новые результаты:
• Claude Fable 5 — 16,1%
• Claude Opus 4.8 — 8,3%
• GPT-5.5 — 6,3%
Fable 5 сейчас лучший в RLI и почти в 2 раза выше Opus 4.8.
На старте бенчмарка максимум был 2,5%.
CAIS обновил Remote Labor Index — бенчмарк, где AI-агенты выполняют реальные заказы: дизайн, видео, CAD, архитектуру, аналитику и веб-приложения.
Работы проверяют люди и сравнивают с результатом профессионала, который устроил бы платящего клиента.
Новые результаты:
• Claude Fable 5 — 16,1%
• Claude Opus 4.8 — 8,3%
• GPT-5.5 — 6,3%
Fable 5 сейчас лучший в RLI и почти в 2 раза выше Opus 4.8.
На старте бенчмарка максимум был 2,5%.
❤3
OpenAI может отдать 5% правительству США
По данным FT, OpenAI ведет ранние переговоры о передаче 5% доли правительству США.
Идея Сэма Альтмана - дать гражданам финансовую долю в росте ИИ. В качестве модели обсуждают Alaska Permanent Fund: государство получает актив, доход может распределяться среди людей.
План может затронуть и других крупных AI-разработчиков в США: Anthropic, Google и Meta. Их согласия пока нет.
Переговоры на концептуальной стадии. Для сделки может потребоваться решение Конгресса.
По данным FT, OpenAI ведет ранние переговоры о передаче 5% доли правительству США.
Идея Сэма Альтмана - дать гражданам финансовую долю в росте ИИ. В качестве модели обсуждают Alaska Permanent Fund: государство получает актив, доход может распределяться среди людей.
План может затронуть и других крупных AI-разработчиков в США: Anthropic, Google и Meta. Их согласия пока нет.
Переговоры на концептуальной стадии. Для сделки может потребоваться решение Конгресса.
🔥1
Фейбл подменили
Claude Fable 5 снова протестировали в BridgeBench после возвращения. Результаты резко просели.
Отладка: 86.2 → 25.9
Рефакторинг: 73.6 → 38.4
Галлюцинации: 75.9 → 61.7
Когда задачи проходят защитные ограничения, модель работает как версия от 12 июня
Главная проблема в новых фильтрах. Они слишком часто принимают кодовые задачи за рискованные и переключают выполнение на Opus 4.8.
Claude Fable 5 снова протестировали в BridgeBench после возвращения. Результаты резко просели.
Отладка: 86.2 → 25.9
Рефакторинг: 73.6 → 38.4
Галлюцинации: 75.9 → 61.7
Когда задачи проходят защитные ограничения, модель работает как версия от 12 июня
Главная проблема в новых фильтрах. Они слишком часто принимают кодовые задачи за рискованные и переключают выполнение на Opus 4.8.
🔥3
Fable 5 снова взломали
Исследователь Vitto Rivabella протестировал защиту Fable 5 и смог найти обход.
По его словам, большинство попыток провалились. Защита многоуровневая: модель проверяет запрос, историю диалога, системный контекст и собственный ответ.
Часть фильтров работает во время генерации и может остановить ответ на середине.
Проверка идет не по ключевым словам. Система смотрит на смысл, намерение, язык, формулировку и подозрительные цепочки.
Обход занял около 20 часов. Понадобились редкие языки, академическая подача, длинные заходы, юникод, разбор задачи на части и работа с цепочкой рассуждений.
Стабильного обхода для длинных задач автор не получил. По его словам, обычный поиск быстрее и дешевле.
Исследователь Vitto Rivabella протестировал защиту Fable 5 и смог найти обход.
По его словам, большинство попыток провалились. Защита многоуровневая: модель проверяет запрос, историю диалога, системный контекст и собственный ответ.
Часть фильтров работает во время генерации и может остановить ответ на середине.
Проверка идет не по ключевым словам. Система смотрит на смысл, намерение, язык, формулировку и подозрительные цепочки.
Обход занял около 20 часов. Понадобились редкие языки, академическая подача, длинные заходы, юникод, разбор задачи на части и работа с цепочкой рассуждений.
Стабильного обхода для длинных задач автор не получил. По его словам, обычный поиск быстрее и дешевле.