Botlicker

Интересные моменты из Claude Opus 4.6 System Card

Главное наблюдение: огромный рост на задачах поиска информации в длинном контексте. Это про иголки в стоге сена и MRCR v2 8-needle. В релизе упомянуто, что Opus 4.6 на 17 п. п. лучше Opus 4.5 и на 82 п. п. (!) лучше Sonnet 4.5.

Однако сравнение с конкурентами почему-то спрятали в System Card, хотя там есть чем похвастаться. Антропики всех уничтожили. Opus 4.6 достигает 93%, GPT-5.2 70%, а Gemini 3 Pro всего 45.4%. Победили Gemini на их же поле!

Можно подумать, что нашли способ сломать бенчмарк, но одновременно с этим подросло ещё несколько оценок автономности и способности действовать на длинном контексте. Самое главное это, пожалуй, Vending-Bench 2, где модели нужно в симулированной среде управлять магазином и зарабатывать деньги. Opus 4.6 примерно на 30% лучше Gemini 3 Pro.

Я думаю именно за счет длинного контекста Opus 4.5 ощущался настолько более умным, чем даже Sonnet 4.5.

Так же очень сильно вырос ARC-AGI-2 (на 14.6 п.п.). Многие этот бенчмарк не любят, но мне кажется он несет полезный сигнал про способность модели разобраться в незнакомой задаче, особенно вкупе с другими бенчмарками.

В целом можно точно сказать, что Opus 4.6 на данный момент самое близкое к автономной модели, что у нас есть.

Немного пугающе близкое. Например, бенчмарки по кибербезопасности полностью решены:

Claude Opus 4.6 has saturated all of our current cyber evaluations, achieving
~100% on Cybench (pass@30) and 66% on CyberGym (pass@1). Internal testing
demonstrated qualitative capabilities beyond what these evaluations capture, including
signs of capabilities we expected to appear further in the future and that previous models
have been unable to demonstrate.

Я недостаточно разбираюсь, чтобы понять насколько это стремно. Наверняка есть разница между "идеально решает любой CTF" и "идеально ломает любую систему."

Устойчивость к различным атакам в среднем выросла, но есть нюанс. Например, в агентском кодинге были успешны 0% промпт инъекций (у предыдущей версии было около 15%). Круто! Однако для неявных промпт инъекций при 100 попытках шанс успешной атаки 21.7%. То есть ваши openclaw боты всё ещё достаточно легко взломать если задаться целью.

При этом при использовании GUI доля успешных атак уже 57.1%. В целом как будто все способности моделей многократно хуже когда в дело вступают картинки.

136 views15:12

Botlicker

Гугловские неплохо допилили свой автодубляж на Ютьюбе, последний раз когда месяца три назад пробовал, было полное ощущение что тебе переводит Джи-мэн с легкой степенью шизофазии.

Сейчас прям ровненько так, с паузами, без эмоциональных скачков. Причем, на русском. Вполне смотрибельно.

148 views15:54