Если вы используете GitHub
Сегодня 24 апреля последний день, когда можно отказаться от автоматического обучения GitHub Copilot на ваших репо.
Для этого нужно пройти по ссылке: https://github.com/settings/copilot/features
Сегодня 24 апреля последний день, когда можно отказаться от автоматического обучения GitHub Copilot на ваших репо.
Для этого нужно пройти по ссылке: https://github.com/settings/copilot/features
1
OpenAI сделали авто-разрешения в Codex
Теперь, вместо Full-Access вы можете выбрать проверку разрешений ревью-субагентом
Агент будет решать, разрешить ли это действие, или нужно побеспокоить пользователя запросами разрешения.
Работает на тарифе Про, а не только на Макс.
Приятно видеть, как люди учатся на своих ошибках.
Теперь, вместо Full-Access вы можете выбрать проверку разрешений ревью-субагентом
Агент будет решать, разрешить ли это действие, или нужно побеспокоить пользователя запросами разрешения.
Работает на тарифе Про, а не только на Макс.
Приятно видеть, как люди учатся на своих ошибках.
❤2
Начал тестировать GLM-5.1 в Opencode
Где-то в 2 случаях из 5 он просто зависает и ничего не просиходит и накакой индикации кроме того, что эта плашка внизу работает.
Особенно на плохом интернет-соединиении. У Claude Code появляется Reconnect 2\5...
А этот продолжает работать как ни в чем не бывало, и может так висеть часами (пока рекорд 3 часа 40 минут).
И отображение этого тикающего таймера как в Claude Code или Codex включить не возможно.
Где-то в 2 случаях из 5 он просто зависает и ничего не просиходит и накакой индикации кроме того, что эта плашка внизу работает.
Особенно на плохом интернет-соединиении. У Claude Code появляется Reconnect 2\5...
А этот продолжает работать как ни в чем не бывало, и может так висеть часами (пока рекорд 3 часа 40 минут).
И отображение этого тикающего таймера как в Claude Code или Codex включить не возможно.
Протестировал GLM-5.1 в Opencode с оценкой субагентом - результат 5 из 5
Сравните с предыдущим тестом - разница небо и земля. Конечно, еще не так круто как Opus 4.7, но стоит модель где-то в 6 раз дешевле.
Промпт:
Посмотрите, все корпуса ровные, нигде ничего (почти) не торчит. Все функции работают.
Но, есть два нюанса:
• у одного телефона буквы в меню расположены вертикально (так что экран надо поворачивать боком, чтобы прочесть)
• Такой промпт заставляет модель работать намного намного дольше (от 23 минут до 1 часа 15 минут) и жрать намного намного больше токенов.
Вот такой вот промпт инжинириг, добавьте в свой промпт инструкцию:
Оценка субагентом заставляет модель переосмысливать сделанное - что значительно улучшает результаты работы модели.
Предополжительно из более мощных моделей таких как Opus 4.7 и GPT-5.5 такой промпт может выжать намного намного больше.
Сравните с предыдущим тестом - разница небо и земля. Конечно, еще не так круто как Opus 4.7, но стоит модель где-то в 6 раз дешевле.
Промпт:
Создайте Nokia 3310 с пиксельным экраном, игрой Змейка, составлением SMS и визуализатором классического рингтона. Сначала напиши план. После реализации плана запусти субагента проверить, был ли план реализован на 100% и исправь все найденные ошибки. После этого снова запусти субагента проверить и так до тех пор пока план не будет реализован 100% полностью.Посмотрите, все корпуса ровные, нигде ничего (почти) не торчит. Все функции работают.
Но, есть два нюанса:
• у одного телефона буквы в меню расположены вертикально (так что экран надо поворачивать боком, чтобы прочесть)
• Такой промпт заставляет модель работать намного намного дольше (от 23 минут до 1 часа 15 минут) и жрать намного намного больше токенов.
Вот такой вот промпт инжинириг, добавьте в свой промпт инструкцию:
После реализации плана запусти субагента проверить, был ли план реализован на 100% и исправь все найденные ошибки. После этого снова запусти субагента проверить и так до тех пор пока план не будет реализован 100% полностью.Оценка субагентом заставляет модель переосмысливать сделанное - что значительно улучшает результаты работы модели.
Предополжительно из более мощных моделей таких как Opus 4.7 и GPT-5.5 такой промпт может выжать намного намного больше.
🔥3
Forwarded from Data Secrets
Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте? Anthropic только что признали, что это правда.
Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.
1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.
2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.
3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.
Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)
Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем☕️
www.anthropic.com/engineering/april-23-postmortem
Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил.
1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много.
2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили.
3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля.
Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :)
Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем
www.anthropic.com/engineering/april-23-postmortem
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Протестировал Claude Design
Как и все что делает Антропик - на старте это полное💩 и вообще не работает.
Заплатил $100 за Мах 5х и сижу жду как лошара свой проект.
Как правило, они в течении 2х недель доводят и докурчивают до ума, посмотрим, как будет на этот раз.
Кроме этого недельные лимиты на Claude Design - ну настолько маленькие - что просто с гулькин носик, так дали понюхать.
В целом я вангую, что с такой ситуацией на инференс, скоро цены будут поднимать и очень серьезно будут поднимать.
Одна надежда на китайцев, что они смогут сохранить нам старые цены. И вот тогда, все кто ржали надо мной, когда я призывал "оптимизировать и экономить токены" взвоют и зальют эти наши интернеты реками воплей, мол доколи терпеть, денег не хватает платить за ИИ.
Как и все что делает Антропик - на старте это полное
Заплатил $100 за Мах 5х и сижу жду как лошара свой проект.
Как правило, они в течении 2х недель доводят и докурчивают до ума, посмотрим, как будет на этот раз.
Кроме этого недельные лимиты на Claude Design - ну настолько маленькие - что просто с гулькин носик, так дали понюхать.
В целом я вангую, что с такой ситуацией на инференс, скоро цены будут поднимать и очень серьезно будут поднимать.
Одна надежда на китайцев, что они смогут сохранить нам старые цены. И вот тогда, все кто ржали надо мной, когда я призывал "оптимизировать и экономить токены" взвоют и зальют эти наши интернеты реками воплей, мол доколи терпеть, денег не хватает платить за ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Антропик - страйк сбоев уже три дня подряд 23, 24 и 25 апреля
Тут надо сделать ремарку - что Claude Design не работает, не потому что он плохо работает.
А потом что инференс Антропик работает плохо:
Apr 25, 2026
Unresolved incidents: Claude Code v2.1.120 Crashes on Startup, Elevated error rates on Claude Opus 4.7. - ну и Claude Design тоже перестал работать.
Apr 24, 2026
Issues with sign-ups on platform.claude.com
Elevated errors on Claude Opus 4.7
Apr 23, 2026
Elevated errors on Claude Opus 4.7
MCP apps unavailable on Claude.ai
Скоро uptime 90% так станет нормой.
Что еще тут сказать - для меня это повод оплатить Codex и Copilot.
Желаю удачи Антропикам с таким подходом к бизнесу!
Тут надо сделать ремарку - что Claude Design не работает, не потому что он плохо работает.
А потом что инференс Антропик работает плохо:
Apr 25, 2026
Unresolved incidents: Claude Code v2.1.120 Crashes on Startup, Elevated error rates on Claude Opus 4.7. - ну и Claude Design тоже перестал работать.
Apr 24, 2026
Issues with sign-ups on platform.claude.com
Elevated errors on Claude Opus 4.7
Apr 23, 2026
Elevated errors on Claude Opus 4.7
MCP apps unavailable on Claude.ai
Скоро uptime 90% так станет нормой.
Что еще тут сказать - для меня это повод оплатить Codex и Copilot.
Желаю удачи Антропикам с таким подходом к бизнесу!
Deepseek-v4-flash уже на Ollama
Установка:
В модели 284B параметров поддерживает 1М контекстное окно. Цена на Опенроутере $0.28/M
DeepSeek сказал - DeepSeek сделал. Цену уменьшили 42% (не почти в 2 раза, но существенно).
По генерации текста модель на 47 месте рейтинга arena.ai набирает 1433-1439 elo - а это уровень gpt-5.2 и gemini-3.1-lite.
Предыдущая версия 3.2 сейчас на 63 месте и набирает 1425 elo, так что рост может не такой и большой.
Но, старая цена в $0.40 - она как бы была недосягаема для конкурентов, а новая цена в $0.28 создает вообще новую ценовую категорию и открывает новые горизонты использования этих моделей в таких системах как OpenClaw и скорее всего создаст новые типы программного обеспечения.
Лицензия MIT
https://ollama.com/library/deepseek-v4-flash
Установка:
ollama run deepseek-v4-flash:cloudВ модели 284B параметров поддерживает 1М контекстное окно. Цена на Опенроутере $0.28/M
DeepSeek сказал - DeepSeek сделал. Цену уменьшили 42% (не почти в 2 раза, но существенно).
По генерации текста модель на 47 месте рейтинга arena.ai набирает 1433-1439 elo - а это уровень gpt-5.2 и gemini-3.1-lite.
Предыдущая версия 3.2 сейчас на 63 месте и набирает 1425 elo, так что рост может не такой и большой.
Но, старая цена в $0.40 - она как бы была недосягаема для конкурентов, а новая цена в $0.28 создает вообще новую ценовую категорию и открывает новые горизонты использования этих моделей в таких системах как OpenClaw и скорее всего создаст новые типы программного обеспечения.
Лицензия MIT
https://ollama.com/library/deepseek-v4-flash
Запуску Claude Code в режиме стриминга
Используйте:
Чтобы скрыть свои личные данные, если нужно стримить экран или делать скриншоты
Используйте:
export IS_DEMO=true && claudeЧтобы скрыть свои личные данные, если нужно стримить экран или делать скриншоты
"Приключения Деплоя" часть 3
1. Сервер висит наглухо.
2. Пишу в поддержку - я уже удалил 9 контейнеров из 11, осталось 2 - загрузка 96.5%
3. Поддержка отвечает - мы уже все исправили и выпустили обновление, оно уже доступно только на новых серверах!
4. Я задумался о переезде на новый хостинг.
Этот новый GPT-image 2.0 - он просто афигенский. С первого шота нарисовал мне 3 часть комикса про Деплоя. С первой частью я возился ну часа 3.
1. Сервер висит наглухо.
2. Пишу в поддержку - я уже удалил 9 контейнеров из 11, осталось 2 - загрузка 96.5%
3. Поддержка отвечает - мы уже все исправили и выпустили обновление, оно уже доступно только на новых серверах!
4. Я задумался о переезде на новый хостинг.
Этот новый GPT-image 2.0 - он просто афигенский. С первого шота нарисовал мне 3 часть комикса про Деплоя. С первой частью я возился ну часа 3.
🔥3