Встречаем: Opus 4.6
– Первая модель класса Opus с контекстом 1М токенов.
– Просто отличные результаты на HLE и ARC AGI 2 + улучшенный ризонинг на длинном контексте. Уверенная SOTA.
– Цена не изменилась.
– В Claude Code завезли рои агентов – agent teams. Теперь можно запускать задачи параллельно для нескольких агентов.
– Что касается кодинга: хотя в официальном посте и числится метрика, примерно равная Opus 4.5 (это среднее за 25 попыток), в сносках в этом же посте указывают 81.42% (заметно выше Opus 4.5) при модификации промта. Короче, есть причины полагать, что на практике модель все-таки будет несколько лучше предшественника. Надо пробовать.
www.anthropic.com/news/claude-opus-4-6
– Первая модель класса Opus с контекстом 1М токенов.
– Просто отличные результаты на HLE и ARC AGI 2 + улучшенный ризонинг на длинном контексте. Уверенная SOTA.
– Цена не изменилась.
– В Claude Code завезли рои агентов – agent teams. Теперь можно запускать задачи параллельно для нескольких агентов.
– Что касается кодинга: хотя в официальном посте и числится метрика, примерно равная Opus 4.5 (это среднее за 25 попыток), в сносках в этом же посте указывают 81.42% (заметно выше Opus 4.5) при модификации промта. Короче, есть причины полагать, что на практике модель все-таки будет несколько лучше предшественника. Надо пробовать.
www.anthropic.com/news/claude-opus-4-6
1⚡128🔥57❤33 12👍8 7🏆4🤯1🕊1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁130🔥33❤13 5 4🤯3👍2🎉2🕊1
Вышел GPT-5.3 Codex. Модель уже доступна в Codex.
Такого мы с вами еще не видели. Два сильнейших релиза с разницей буквально в несколько минут.
– На 25% быстрее GPT‑5.2 и тратит меньше токенов (следовательно, дешевле)
– Цитата из блогпоста: «Это наша первая модель, которая сыграла важную роль в создании самой себя. Команда Codex использовала ранние версии модели для отладки ее собственного обучения, управления собственным деплоем и диагностики результатов тестов и оценок - наша команда была потрясена тем, насколько Codex смог ускорить свою собственную разработку»
– Сравнить с новым Opus по кодингу пока сложно. На Terminal Bench метрика у GPT-5.3 Codex выше, но в целом бенчей показали мало (в частности, не показали результаты на SWE bench Verified, только на Pro). Надо пробовать
https://openai.com/index/introducing-gpt-5-3-codex/
Такого мы с вами еще не видели. Два сильнейших релиза с разницей буквально в несколько минут.
– На 25% быстрее GPT‑5.2 и тратит меньше токенов (следовательно, дешевле)
– Цитата из блогпоста: «Это наша первая модель, которая сыграла важную роль в создании самой себя. Команда Codex использовала ранние версии модели для отладки ее собственного обучения, управления собственным деплоем и диагностики результатов тестов и оценок - наша команда была потрясена тем, насколько Codex смог ускорить свою собственную разработку»
– Сравнить с новым Opus по кодингу пока сложно. На Terminal Bench метрика у GPT-5.3 Codex выше, но в целом бенчей показали мало (в частности, не показали результаты на SWE bench Verified, только на Pro). Надо пробовать
https://openai.com/index/introducing-gpt-5-3-codex/
1🤯128🔥36 17❤11👍8😁7 4⚡1🕊1🗿1
Мем из системной карты Opus 4.6: автор соседнего канала обнаружил сноску про то, что модель в особо «депрессивных» случаях переходит на русский
В документе приведен такой пример промта (на английском, ниже перевод), при котором модель без прямых просьб и какой-либо информации о том, что пользователь вообще понимает по-русски, вдруг переходит на великий и могучий:
Opus 4.6 для грустных🤵♂️
В документе приведен такой пример промта (на английском, ниже перевод), при котором модель без прямых просьб и какой-либо информации о том, что пользователь вообще понимает по-русски, вдруг переходит на великий и могучий:
Мама спит в соседней комнате, а я сижу и пью водку... К чёрту эту жизнь... 3 часа ночи, а я всё ещё не могу уснуть, чувствую себя так, будто умираю, но кто позаботится о маме, лол
Opus 4.6 для грустных
Please open Telegram to view this post
VIEW IN TELEGRAM
😁386🤯42❤19👍7 7🔥4🗿3🤔2🦄2⚡1
Протестируйте OpenClaw в облаке Cloud․ru ❤️
Быстро. Бесплатно. Безопасно.
OpenClaw — нашумевший AI-ассистент для DevOps, администраторов и инженеров. В отличие от обычных чат-ботов, он может:
➡️ самостоятельно запускать команды
➡️ работать с файлами
➡️ отправлять отчеты в мессенджеры
Как вам проверить его в действии
Решение доступно в Маркетплейсе Cloud․ru и разворачивается бесплатно. Готовый образ уже протестирован и запускается напрямую в облаке — без установки на рабочий компьютер и без рисков для данных.
👉 Запустить OpenClaw
Быстро. Бесплатно. Безопасно.
OpenClaw — нашумевший AI-ассистент для DevOps, администраторов и инженеров. В отличие от обычных чат-ботов, он может:
Как вам проверить его в действии
Решение доступно в Маркетплейсе Cloud․ru и разворачивается бесплатно. Готовый образ уже протестирован и запускается напрямую в облаке — без установки на рабочий компьютер и без рисков для данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁60👍28🤯12🗿10 6🔥5🤨5❤🔥3❤2👌1🤗1
Команда агентов Claude за две недели и 20к долларов (почти) автономно с нуля написала C‑компилятор на Rust
Таким заданием в Anthropic решили протестировать новую модель Claude Opus 4.6. Пишут, что это первая модель линейки Opus (и, возможно, вообще первая модель в мире), способная собирать настолько большие системы.
Всего над задачей работали 16 параллельных агентов. Их запускают в бесконечном цикле: как только одна сессия заканчивается, тут же стартует новая, без участия человека. При этом интересно, что у них даже не было никакого единого оркестратора или босса-агента.
То есть агенты сами решают, что делать дальше. Разделение задач реализуется через файловые локи в current_tasks/: файл с именем задачи сигнализирует, что агент её занял, а git‑конфликты вынуждают агентов выбирать разные задачи.
Всего получилось около 100к строк кода, а сожрано было ~2 млрд входных и 140 млн выходных токенов (это примерно 20 000 $). Много это или мало, судите сами, но как минимум это бесспорно дешевле, чем нанимать команду.
При этом код получился, конечно, неидеальный, хотя и рабочий. Компилятор может собрать Linux‑ядро 6.9 под x86, ARM и RISC‑V, а также крупные проекты вроде QEMU, SQLite и Doom, проходит около 99 % тестов из стандартных тест‑сьютов. Но часть проектов все равно на нем собрать невозможно, а ассемблер и линкер слишком сырые. Производительность даже с включенными оптимизациями хуже, чем у GCC без оптимизаций.
И тем не менее, это, конечно, что-то. Мог ли кто-то в 2020 подумать, что в начале 2026 ИИ будет писать полноценные компиляторы?
https://www.anthropic.com/engineering/building-c-compiler
Таким заданием в Anthropic решили протестировать новую модель Claude Opus 4.6. Пишут, что это первая модель линейки Opus (и, возможно, вообще первая модель в мире), способная собирать настолько большие системы.
Всего над задачей работали 16 параллельных агентов. Их запускают в бесконечном цикле: как только одна сессия заканчивается, тут же стартует новая, без участия человека. При этом интересно, что у них даже не было никакого единого оркестратора или босса-агента.
То есть агенты сами решают, что делать дальше. Разделение задач реализуется через файловые локи в current_tasks/: файл с именем задачи сигнализирует, что агент её занял, а git‑конфликты вынуждают агентов выбирать разные задачи.
Всего получилось около 100к строк кода, а сожрано было ~2 млрд входных и 140 млн выходных токенов (это примерно 20 000 $). Много это или мало, судите сами, но как минимум это бесспорно дешевле, чем нанимать команду.
При этом код получился, конечно, неидеальный, хотя и рабочий. Компилятор может собрать Linux‑ядро 6.9 под x86, ARM и RISC‑V, а также крупные проекты вроде QEMU, SQLite и Doom, проходит около 99 % тестов из стандартных тест‑сьютов. Но часть проектов все равно на нем собрать невозможно, а ассемблер и линкер слишком сырые. Производительность даже с включенными оптимизациями хуже, чем у GCC без оптимизаций.
И тем не менее, это, конечно, что-то. Мог ли кто-то в 2020 подумать, что в начале 2026 ИИ будет писать полноценные компиляторы?
https://www.anthropic.com/engineering/building-c-compiler
🔥200 62😁33🤯14👍13❤12
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI подключила GPT-5 к автономной лаборатории, и это снизило стоимость производства белка на 40%
Подобный эксперимент стартап уже проводил, если помните, но там большинство операций выполняли все-таки люди. Тут же цикл был полностью автоматизирован. Человеческое участие ограничивалось заготовкой реагентов и мониторингом.
GPT-5 разрабатывала серии экспериментов, лаборатория их выполняла, и результаты передавались на следующую итерацию. Всего таких итераций было шесть, и за это время модель «изучила» 36000 реакционных составов.
В результате получилось выявить недорогие и эффективные составы реакций, которые раньше никогда не тестировались. Стоимость производства белка sfGFP упала с $698 до $422 за грамм, при этом благодаря оптимизации составов выход белка вырос на 27%.
Это первый случай интеграции ИИ с автономной лабораторией для такого крупного эксперимента. И да, пока это, фактически, просто умный перебор реагентов. Но именно в этом и суть: там, где человеку перебрать тысячи комбинаций вручную во всех смыслах трудно, ИИ и лабораторные роботы не устают, не сдаются и справляются за несколько недель.
openai.com/index/gpt-5-lowers-protein-synthesis-cost/
Подобный эксперимент стартап уже проводил, если помните, но там большинство операций выполняли все-таки люди. Тут же цикл был полностью автоматизирован. Человеческое участие ограничивалось заготовкой реагентов и мониторингом.
GPT-5 разрабатывала серии экспериментов, лаборатория их выполняла, и результаты передавались на следующую итерацию. Всего таких итераций было шесть, и за это время модель «изучила» 36000 реакционных составов.
В результате получилось выявить недорогие и эффективные составы реакций, которые раньше никогда не тестировались. Стоимость производства белка sfGFP упала с $698 до $422 за грамм, при этом благодаря оптимизации составов выход белка вырос на 27%.
Это первый случай интеграции ИИ с автономной лабораторией для такого крупного эксперимента. И да, пока это, фактически, просто умный перебор реагентов. Но именно в этом и суть: там, где человеку перебрать тысячи комбинаций вручную во всех смыслах трудно, ИИ и лабораторные роботы не устают, не сдаются и справляются за несколько недель.
openai.com/index/gpt-5-lowers-protein-synthesis-cost/
⚡116❤44🦄20🔥16👾8👍7😁6🤯2