КиберПоток | ИИ & Нейросети

⚠️ ИИ ДОГНАЛ человека в управлении компьютером

Исторический майлстоун в бенчмарке OSWorld: агент на базе Claude Opus 4.5 + GPT-5 показал результат 72.6% успешных решений реальных компьютерных задач.

Для сравнения, средний показатель человека в этом же тесте — 72.36%. Это первый случай, когда AI-агент официально превзошёл человеческую планку в выполнении повседневных задач (работа с файлами, браузером, приложениями).

Что под капотом:

Рекорд поставил Agent S3, разработанный стартапом Simular (они недавно привлекли $21.5 млн). Агент использует гибридную связку моделей: мощный Opus 4.5 для планирования и GPT-5 для выполнения действий, плюс фреймворк «Behavior Best-of-N» для выбора лучших решений.

Еще год назад топовые агенты едва пробивали 20-30%, а теперь мы видим паритет с человеком.

😎

КиберПоток | AIкаталог | AIбот.
#длявсех #OSWorld #КП

Please open Telegram to view this post

VIEW IN TELEGRAM

❤63🤔2👍1🎉1

514 views14:23

About

Blog

Apps

Platform