Наверняка большинство уже слышало про HRM и о том, как эта модель разъебывает ллмки на ARC‑AGI. Но почти никто не говорит о критике.
Вкратце:
- ARC‑AGI‑1: ~32% (впечатляюще для 27М параметров, но ниже заявленных 41%).
- Иерархическая архитектура H/L даёт минимальный вклад по сравнению с обычным трансформером того же размера.
- Основной буст идёт от внешнего итеративного цикла: предсказал → проверил «halt/continue» → доработал → снова. Именно «процедура» (обучение с refinements), а не сама архитектура, тянет результат.
- Система по сути трансдуктивная: «программа» остаётся в весах, эксплицитной процедуры/правила не извлекаются → ограниченная обобщаемость.
В разборе ARC Prize заявляется: «несмотря на одинаковое количество параметров, HRM требует больше вычислительных ресурсов, что может частично объяснять разницу. Увеличение вычислительных ресурсов может привести к снижению эффективности при большем количестве внешних циклов, что соответствует нашим результатам». То есть по факту это просто inference‑time scaling — эдакий специализированный CoT.
На мой взгляд, всё это изначально очевидно, особенно если обратить внимание на манипуляцию авторов — сравнение Large Language Model с узкоспециализированной моделью.
Всё вышесказанное не означает, что стоит забыть об HRM как о страшном сне: вполне возможно, что нечто подобное ещё неплохо себя покажет в задаче обработки языка (а возможно, уже показывает) — у энтузиастов и у Google.
Вкратце:
- ARC‑AGI‑1: ~32% (впечатляюще для 27М параметров, но ниже заявленных 41%).
- Иерархическая архитектура H/L даёт минимальный вклад по сравнению с обычным трансформером того же размера.
- Основной буст идёт от внешнего итеративного цикла: предсказал → проверил «halt/continue» → доработал → снова. Именно «процедура» (обучение с refinements), а не сама архитектура, тянет результат.
- Система по сути трансдуктивная: «программа» остаётся в весах, эксплицитной процедуры/правила не извлекаются → ограниченная обобщаемость.
В разборе ARC Prize заявляется: «несмотря на одинаковое количество параметров, HRM требует больше вычислительных ресурсов, что может частично объяснять разницу. Увеличение вычислительных ресурсов может привести к снижению эффективности при большем количестве внешних циклов, что соответствует нашим результатам». То есть по факту это просто inference‑time scaling — эдакий специализированный CoT.
На мой взгляд, всё это изначально очевидно, особенно если обратить внимание на манипуляцию авторов — сравнение Large Language Model с узкоспециализированной моделью.
Всё вышесказанное не означает, что стоит забыть об HRM как о страшном сне: вполне возможно, что нечто подобное ещё неплохо себя покажет в задаче обработки языка (а возможно, уже показывает) — у энтузиастов и у Google.
ARC Prize
The Hidden Drivers of HRM's Performance on ARC-AGI | ARC Prize
We scored on hidden tasks, ran ablations, and found that performance from the Hierarchical Reasoning Model comes from an unexpected source
⚡2🌭1
Мой батя ебашит адовые опенсорсы, ну вот рецепт примерно усреднённый, потому что вариаций масса. Берется ллм, она не квантизуется, квантизация - это не про моего батю. Он берет эту ллм, вываливает ее на гит и начинает шитпостить в твиттере. Добавляет в него огромное количество скринов, постов, репостов, смехуечков и жирных МЕМОВ! для вязкости, дает два интервью сверху. Все это хайпится до дыма. Потом снимается с гита и остужается на бенчмарках. Потом батя заносит и щедро полив рагом начинает инферить. При этом инферит прям с хагинфейс со скоростью 3 токена в секунду. Инферит и приговаривает полушепотом ух бля. При этом у него на лбу аж веса выступают. Любезно мне иногда предлагает, но я отказываюсь. Надо ли говорить о том какой дичайший пердеж потом в твитторе? Вонища такая, что апишки от соседних серверов отваливаются.
👍4
Заметил что я ток читаю статейки на тему DL и NLP, но на практике дальше RAG не выбираюсь.
Поэтому решил попробовать обучить мелкую модельку переводчика что бы локально переводить англоязычные датасеты да и прост потому что это прикольно.
Ссылка на модель - тут.
Готовая обертка что бы быстро потыкать качество перевода тут.
Поэтому решил попробовать обучить мелкую модельку переводчика что бы локально переводить англоязычные датасеты да и прост потому что это прикольно.
Ссылка на модель - тут.
Готовая обертка что бы быстро потыкать качество перевода тут.
🔥6🍓1🎄1