Наверняка большинство уже слышало про HRM и о том, как эта модель разъебывает ллмки на ARC‑AGI. Но почти никто не говорит о критике.
Вкратце:
- ARC‑AGI‑1: ~32% (впечатляюще для 27М параметров, но ниже заявленных 41%).
- Иерархическая архитектура H/L даёт минимальный вклад по сравнению с обычным трансформером того же размера.
- Основной буст идёт от внешнего итеративного цикла: предсказал → проверил «halt/continue» → доработал → снова. Именно «процедура» (обучение с refinements), а не сама архитектура, тянет результат.
- Система по сути трансдуктивная: «программа» остаётся в весах, эксплицитной процедуры/правила не извлекаются → ограниченная обобщаемость.
В разборе ARC Prize заявляется: «несмотря на одинаковое количество параметров, HRM требует больше вычислительных ресурсов, что может частично объяснять разницу. Увеличение вычислительных ресурсов может привести к снижению эффективности при большем количестве внешних циклов, что соответствует нашим результатам». То есть по факту это просто inference‑time scaling — эдакий специализированный CoT.
На мой взгляд, всё это изначально очевидно, особенно если обратить внимание на манипуляцию авторов — сравнение Large Language Model с узкоспециализированной моделью.
Всё вышесказанное не означает, что стоит забыть об HRM как о страшном сне: вполне возможно, что нечто подобное ещё неплохо себя покажет в задаче обработки языка (а возможно, уже показывает) — у энтузиастов и у Google.
Вкратце:
- ARC‑AGI‑1: ~32% (впечатляюще для 27М параметров, но ниже заявленных 41%).
- Иерархическая архитектура H/L даёт минимальный вклад по сравнению с обычным трансформером того же размера.
- Основной буст идёт от внешнего итеративного цикла: предсказал → проверил «halt/continue» → доработал → снова. Именно «процедура» (обучение с refinements), а не сама архитектура, тянет результат.
- Система по сути трансдуктивная: «программа» остаётся в весах, эксплицитной процедуры/правила не извлекаются → ограниченная обобщаемость.
В разборе ARC Prize заявляется: «несмотря на одинаковое количество параметров, HRM требует больше вычислительных ресурсов, что может частично объяснять разницу. Увеличение вычислительных ресурсов может привести к снижению эффективности при большем количестве внешних циклов, что соответствует нашим результатам». То есть по факту это просто inference‑time scaling — эдакий специализированный CoT.
На мой взгляд, всё это изначально очевидно, особенно если обратить внимание на манипуляцию авторов — сравнение Large Language Model с узкоспециализированной моделью.
Всё вышесказанное не означает, что стоит забыть об HRM как о страшном сне: вполне возможно, что нечто подобное ещё неплохо себя покажет в задаче обработки языка (а возможно, уже показывает) — у энтузиастов и у Google.
ARC Prize
The Hidden Drivers of HRM's Performance on ARC-AGI | ARC Prize
We scored on hidden tasks, ran ablations, and found that performance from the Hierarchical Reasoning Model comes from an unexpected source
⚡2🌭1