Исторический майлстоун в бенчмарке OSWorld: агент на базе Claude Opus 4.5 + GPT-5 показал результат 72.6% успешных решений реальных компьютерных задач.
Для сравнения, средний показатель человека в этом же тесте — 72.36%. Это первый случай, когда AI-агент официально превзошёл человеческую планку в выполнении повседневных задач (работа с файлами, браузером, приложениями).
Что под капотом:
Рекорд поставил Agent S3, разработанный стартапом Simular (они недавно привлекли $21.5 млн). Агент использует гибридную связку моделей: мощный Opus 4.5 для планирования и GPT-5 для выполнения действий, плюс фреймворк «Behavior Best-of-N» для выбора лучших решений.
Еще год назад топовые агенты едва пробивали 20-30%, а теперь мы видим паритет с человеком.
#длявсех #OSWorld #КП
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6 3🤔2👍1🎉1