🕹️ Новый мощный бенчмарк для ИИ — **HeroBench** 👏
Он проверяет, умеют ли LLM планировать длинные цепочки действий в реалистичном RPG-мире: выбрать снаряжение, собрать ресурсы, скрафтить предметы и победить монстра.
⚔️ Особенность: всё завязано на урон, резисты и здоровье, поэтому модели должны рассуждать о компромиссах, а не просто угадывать шаги.
🤖 Модели пишут Python-код со стратегией, симулятор исполняет его и оценивает прогресс.
🔑 Итоги:
- Grok-4 лидирует на сложных заданиях
- За ним GPT-5 и Gemini 2.5 Pro
- GPT-4.1 остаётся сильнейшей «обычной» моделью без спец. reasoning-режимов
- Ошибки чаще всего связаны с неверным выбором экипировки или кривым исполнением
📄 Paper: arxiv.org/abs/2508.12782
#AI #LLM #benchmark #gaming #reasoning
Он проверяет, умеют ли LLM планировать длинные цепочки действий в реалистичном RPG-мире: выбрать снаряжение, собрать ресурсы, скрафтить предметы и победить монстра.
⚔️ Особенность: всё завязано на урон, резисты и здоровье, поэтому модели должны рассуждать о компромиссах, а не просто угадывать шаги.
🤖 Модели пишут Python-код со стратегией, симулятор исполняет его и оценивает прогресс.
🔑 Итоги:
- Grok-4 лидирует на сложных заданиях
- За ним GPT-5 и Gemini 2.5 Pro
- GPT-4.1 остаётся сильнейшей «обычной» моделью без спец. reasoning-режимов
- Ошибки чаще всего связаны с неверным выбором экипировки или кривым исполнением
📄 Paper: arxiv.org/abs/2508.12782
#AI #LLM #benchmark #gaming #reasoning
❤13👍6🔥5