alex getman
128 subscribers
201 photos
61 videos
2 files
117 links
чат вайб-кодеров 🔻
t.me/+GenGOblinMw3MGVi
Download Telegram
OpenAI анонсировала GPT-5.6 Sol, Terra и Luna

• Sol — новый флагман для сложных агентных задач
• Появятся режимы max reasoning и ultra с сабагентами
• Главный фокус Sol — кодинг, биология и кибербезопасность
• Доступ пока ограничен по запросу правительства США
• Цены: от $1 до $30 за 1M токенов в зависимости от модели
• В июле Sol запустят на Cerebras со скоростью до 750 токенов/сек
🔥4
Отзыв о GPT-5.6 от создателя OpenCode

• Dax пишет, что обычно не разгоняет хайп вокруг новых моделей. Но GPT-5.6 заметно изменила работу их команды.
• Самое важное: он не считает, что модель сама пишет хороший код. Ему нравится не результат «из коробки», а процесс, в котором с моделью можно дойти до хорошего решения.
• По его словам, GPT-5.6 лучше понимает задачу и меньше теряет детали. Она также находит вещи, о которых разработчик мог забыть.
• При этом проблемы остались: модель всё еще может перестраховываться и писать лишнее. Иногда после нее приходится делать отдельный проход и удалять половину кода.
• Самый показательный факт — использование токенов в их команде выросло в 5 раз. Это похоже на главный сигнал: модель стала не идеальным автором кода, а более удобным помощником в работе над ним.
3
GPT 5.6 Sol vs Mythos: без явного победителя

По цифрам нет разгрома ни в одну сторону. GPT 5.6 Sol выглядит сильнее в задачах на работу в терминале и немного обходит Claude Mythos в CyberGym.

Но в киберэксплуатации и медицине преимущество остается за Mythos / Fable 5.

При этом я бы не делал больших выводов только по бенчмаркам.

Сейчас важнее реальные отзывы разработчиков, поведение модели в длинных задачах и собственный тест в рабочих сценариях.
4
Codex сбросил лимиты

Признали проблему с повышенным потреблением лимитов, но заявили, что она не была массовой.
🔥3
Обычный пользователь наблюдает за релизами ИИ-моделей
😁4
Трамп умер от бешенства - спасибо Reddit и ИИ

ИИ-поисковики на время поверили, что Дональд Трамп и Джей Ди Вэнс умерли от бешенства.

Источник фейка - сабреддит r/poisonai, где около 45 000 пользователей специально публикуют абсурдную ложь серьёзным тоном. Так они пытаются отравлять ИИ-поиск и проверять, начнёт ли он выдавать выдумки за факты.

На этот раз они придумали историю, что Вэнс укусил Трампа по совету Роберта Кеннеди-младшего, потому что бешенство якобы даёт человеку сверхспособности.

Фейк подхватил псевдоновостной сайт WKNA. После этого DuckDuckGo и ИИ-поиск Brave начали выдавать историю как реальный факт - уже со ссылками на источник.

DuckDuckGo признал, что поисковик намеренно обманули, и заявил, что проблема уже исправлена. Brave ответил проще: поисковики не оракулы истины.
😁7
OpenAI расследует проблемы с лимитами Codex

Тибо написал, что команда Codex в воскресенье собралась в свой военный штаб: изучают логи и ищут причины, из-за которых у части пользователей мог быстрее расходоваться лимит.

Пока расследование продолжается, OpenAI разово полностью сбросила лимиты Codex всем пользователям.

Самое смешное: эта неделя в OpenAI называется RESET week. В американской корпоративной культуре это время, когда сотрудники должны немного перезагрузиться: меньше созвонов, меньше давления, больше воздуха.
🙏4
Должности больше не работают - так считает Борис Черный, глава Claude Code

Его мысль: старое деление на инженеров, дизайнеров, менеджеров продукта и аналитиков становится слишком грубым.

В Anthropic он видит, как с развитием AI границы между ролями начинают размываться.

В реальности человек ценен не названием роли, а тем, как он двигает продукт.

Борис предлагает смотреть на команду через пять типов:

Придумыватель
Находит новые идеи и быстро делает первые версии.

Строитель
Доводит идею до продукта.

Чистильщик
Упрощает, удаляет лишнее, делает систему чище и быстрее.

Выращиватель
Берет работающий продукт и шаг за шагом улучшает его.

Хранитель
Отвечает за надежность, безопасность и масштабирование зрелой системы.

Это хорошая рамка: она объясняет реальность лучше, чем должности.

В команде может быть много инженеров, но не хватать строителя.

Может быть сильный дизайн, но не хватать чистильщика.

И наоборот: человек может быть в одной профессии, а закрывать другую роль для продукта.
🔥6
РЕЛИЗ: Claude Sonnet 5

• Новый Sonnet стал сильнее в агентных задачах: планирует работу, использует браузер и терминал, работает с инструментами, сам проверяет результат и дольше ведёт сложные задачи
• По уровню модель приблизилась к Opus 4.8: в бенчмарках по кодингу, работе с компьютером и задачам с инструментами разрыв уже небольшой
• Стандартная цена Sonnet 5 в API — $3/$15 за 1M токенов. На старте действует 30% скидка. Opus 4.8 дороже — $5/$25
🔥32
Timeweb Голландия заработал, начинаю постить, что накопилось ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude Fable возвращается!

Anthropic сняла ограничения с Claude Fable 5 и Mythos 5 после решения правительства США.

Fable снова будет доступна пользователям Claude с сегодняшнего дня.

До 7 июля модель входит в недельные лимиты, после этого доступ перейдет на API.

Блокировка началась после отчета Amazon: исследователи нашли обход защиты Fable в задачах кибербезопасности.

Anthropic утверждает, что обход не давал возможностей уровня Mythos. Компания уже добавила новый классификатор безопасности, который блокирует этот метод более чем в 99% случаев.

Anthropic также готовит общий стандарт оценки AI-джейлбрейков.
🔥4
Google выпустила Nano Banana 2 Lite

Новая модель генерирует картинку примерно за 4 секунды и стоит $0,034 за изображение в 1K.

В Gemini она доступна через выбор 3.1 Flash Lite.

Главный сценарий - быстрые черновики: прогнать несколько промптов, выбрать лучший вариант и потом отправить его на доработку в Nano Banana 2 или GPT Image.

По качеству Lite почти не отстает от полной версии: 1251 Elo против 1270 у Nano Banana 2 на lmarena.
Sonnet 5 выглядит неадекватно по цене

• Opus 4.8 Max - $1.80
• Sonnet 5 Max - $2.29
• Fable 5 - $2.75

Sonnet 5 дороже Opus 4.8 примерно на 27%.

Почему младшая модель стоит дороже флагмана?
Claude Desktop теперь на Linux

Anthropic выпустила Claude Desktop для Linux в бете.

Пока поддерживаются Ubuntu и Debian.

В приложении доступны Claude Code, Claude Cowork и обычный чат на всех платных планах.

Computer Use в этот релиз не вошел, его обещают добавить позже.
🔥32
ИИ уже автоматизирует 16% фриланс-задач

CAIS обновил Remote Labor Index — бенчмарк, где AI-агенты выполняют реальные заказы: дизайн, видео, CAD, архитектуру, аналитику и веб-приложения.

Работы проверяют люди и сравнивают с результатом профессионала, который устроил бы платящего клиента.

Новые результаты:

• Claude Fable 5 — 16,1%
• Claude Opus 4.8 — 8,3%
• GPT-5.5 — 6,3%

Fable 5 сейчас лучший в RLI и почти в 2 раза выше Opus 4.8.

На старте бенчмарка максимум был 2,5%.
3
Claude сбросил лимиты в честь возвращения Fable
6
OpenAI может отдать 5% правительству США

По данным FT, OpenAI ведет ранние переговоры о передаче 5% доли правительству США.

Идея Сэма Альтмана - дать гражданам финансовую долю в росте ИИ. В качестве модели обсуждают Alaska Permanent Fund: государство получает актив, доход может распределяться среди людей.

План может затронуть и других крупных AI-разработчиков в США: Anthropic, Google и Meta. Их согласия пока нет.

Переговоры на концептуальной стадии. Для сделки может потребоваться решение Конгресса.
🔥1
Фейбл подменили

Claude Fable 5 снова протестировали в BridgeBench после возвращения. Результаты резко просели.

Отладка: 86.2 → 25.9
Рефакторинг: 73.6 → 38.4
Галлюцинации: 75.9 → 61.7

Когда задачи проходят защитные ограничения, модель работает как версия от 12 июня

Главная проблема в новых фильтрах. Они слишком часто принимают кодовые задачи за рискованные и переключают выполнение на Opus 4.8.
🔥3
Fable 5 снова взломали

Исследователь Vitto Rivabella протестировал защиту Fable 5 и смог найти обход.

По его словам, большинство попыток провалились. Защита многоуровневая: модель проверяет запрос, историю диалога, системный контекст и собственный ответ.

Часть фильтров работает во время генерации и может остановить ответ на середине.

Проверка идет не по ключевым словам. Система смотрит на смысл, намерение, язык, формулировку и подозрительные цепочки.

Обход занял около 20 часов. Понадобились редкие языки, академическая подача, длинные заходы, юникод, разбор задачи на части и работа с цепочкой рассуждений.

Стабильного обхода для длинных задач автор не получил. По его словам, обычный поиск быстрее и дешевле.