genai – Telegram

genai

92 subscribers

49 photos

14 videos

10 links

Download Telegram

About

Blog

Apps

Platform

Наверняка большинство уже слышало про HRM и о том, как эта модель разъебывает ллмки на ARC‑AGI. Но почти никто не говорит о критике.

Вкратце:

- ARC‑AGI‑1: ~32% (впечатляюще для 27М параметров, но ниже заявленных 41%).

- Иерархическая архитектура H/L даёт минимальный вклад по сравнению с обычным трансформером того же размера.

- Основной буст идёт от внешнего итеративного цикла: предсказал → проверил «halt/continue» → доработал → снова. Именно «процедура» (обучение с refinements), а не сама архитектура, тянет результат.

- Система по сути трансдуктивная: «программа» остаётся в весах, эксплицитной процедуры/правила не извлекаются → ограниченная обобщаемость.

В разборе ARC Prize заявляется: «несмотря на одинаковое количество параметров, HRM требует больше вычислительных ресурсов, что может частично объяснять разницу. Увеличение вычислительных ресурсов может привести к снижению эффективности при большем количестве внешних циклов, что соответствует нашим результатам». То есть по факту это просто inference‑time scaling — эдакий специализированный CoT.

На мой взгляд, всё это изначально очевидно, особенно если обратить внимание на манипуляцию авторов — сравнение Large Language Model с узкоспециализированной моделью.

Всё вышесказанное не означает, что стоит забыть об HRM как о страшном сне: вполне возможно, что нечто подобное ещё неплохо себя покажет в задаче обработки языка (а возможно, уже показывает) — у энтузиастов и у Google.

The Hidden Drivers of HRM's Performance on ARC-AGI | ARC Prize

We scored on hidden tasks, ran ablations, and found that performance from the Hierarchical Reasoning Model comes from an unexpected source

⚡2🌭1

425 viewsedited 04:32

График из статьи - сравнение HRM и трансформера аналогичного размера. Трансформер показывает результаты в пределах нескольких пунктов без какой-либо оптимизации гиперпараметров

🍌2

415 views04:32

🔥3

486 views05:00

This media is not supported in your browser

VIEW IN TELEGRAM

💯5

481 views18:00

😁3

382 views10:10

🤣10

409 views17:26

413 views21:40

Мой батя ебашит адовые опенсорсы, ну вот рецепт примерно усреднённый, потому что вариаций масса. Берется ллм, она не квантизуется, квантизация - это не про моего батю. Он берет эту ллм, вываливает ее на гит и начинает шитпостить в твиттере. Добавляет в него огромное количество скринов, постов, репостов, смехуечков и жирных МЕМОВ! для вязкости, дает два интервью сверху. Все это хайпится до дыма. Потом снимается с гита и остужается на бенчмарках. Потом батя заносит и щедро полив рагом начинает инферить. При этом инферит прям с хагинфейс со скоростью 3 токена в секунду. Инферит и приговаривает полушепотом ух бля. При этом у него на лбу аж веса выступают. Любезно мне иногда предлагает, но я отказываюсь. Надо ли говорить о том какой дичайший пердеж потом в твитторе? Вонища такая, что апишки от соседних серверов отваливаются.

👍4

412 views23:39

prostituerte tollcall

😍3🤣2

408 views08:14

😨3👍2

258 views11:54

🌭6

349 views12:31

Голосовые сообщения в вайбкод IDE.

Its say a lot about society

🤣3

321 viewsedited 15:35

267 views12:17

😍5

344 viewsКонстантин, 17:44

312 viewsКонстантин, 19:23

что этот дидди блад делает на GPU

👍6

282 viewsКонстантин, 20:36

😁3🤣3

273 viewsКонстантин, 14:23

This media is not supported in your browser

VIEW IN TELEGRAM

👍2😭1

259 viewsКонстантин, 18:03

😁3❤2

249 viewsКонстантин, 04:41

Заметил что я ток читаю статейки на тему DL и NLP, но на практике дальше RAG не выбираюсь.

Поэтому решил попробовать обучить мелкую модельку переводчика что бы локально переводить англоязычные датасеты да и прост потому что это прикольно.

Ссылка на модель - тут.

Готовая обертка что бы быстро потыкать качество перевода тут.

🔥6🍓1🎄1

313 viewsКонстантин, edited 02:49

Forwarded from /g/'s Tech Memes

The prophecy has been fulfilled

😁2

195 viewsКонстантин, 21:44