genai

Наверняка большинство уже слышало про HRM и о том, как эта модель разъебывает ллмки на ARC‑AGI. Но почти никто не говорит о критике.

Вкратце:

- ARC‑AGI‑1: ~32% (впечатляюще для 27М параметров, но ниже заявленных 41%).

- Иерархическая архитектура H/L даёт минимальный вклад по сравнению с обычным трансформером того же размера.

- Основной буст идёт от внешнего итеративного цикла: предсказал → проверил «halt/continue» → доработал → снова. Именно «процедура» (обучение с refinements), а не сама архитектура, тянет результат.

- Система по сути трансдуктивная: «программа» остаётся в весах, эксплицитной процедуры/правила не извлекаются → ограниченная обобщаемость.

В разборе ARC Prize заявляется: «несмотря на одинаковое количество параметров, HRM требует больше вычислительных ресурсов, что может частично объяснять разницу. Увеличение вычислительных ресурсов может привести к снижению эффективности при большем количестве внешних циклов, что соответствует нашим результатам». То есть по факту это просто inference‑time scaling — эдакий специализированный CoT.

На мой взгляд, всё это изначально очевидно, особенно если обратить внимание на манипуляцию авторов — сравнение Large Language Model с узкоспециализированной моделью.

Всё вышесказанное не означает, что стоит забыть об HRM как о страшном сне: вполне возможно, что нечто подобное ещё неплохо себя покажет в задаче обработки языка (а возможно, уже показывает) — у энтузиастов и у Google.

ARC Prize

The Hidden Drivers of HRM's Performance on ARC-AGI | ARC Prize

We scored on hidden tasks, ran ablations, and found that performance from the Hierarchical Reasoning Model comes from an unexpected source

⚡2🌭1

425 viewsedited 04:32

genai

График из статьи - сравнение HRM и трансформера аналогичного размера. Трансформер показывает результаты в пределах нескольких пунктов без какой-либо оптимизации гиперпараметров

🍌2

415 views04:32

genai

🔥3

486 views05:00

genai