AbstractDL

Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T

• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827

❤99🔥84👍28🤔15👏6😨6👎3⚡2💩1

16.4K views19:56

AbstractDL

Это уже зависимость, мне пора в дурку подлечиться и отдохнуть

😱273😁89💯39😨18❤7👍7🤯7👏3💩3🌚3👎1

17.1K views14:59

AbstractDL

😁226💯39❤11🔥8😭4👏2👍1

13.4K views12:13

AbstractDL

Я попросил своих агентов сократить проект на 15% (это минус 20к строчек кода). Убрать dead code, отрефакторить под DRY и т.п. Агенты шуршали 5 часов, потратили 200 долларов, а в итоге размер кода вырос на 361 строчку. Спасибо…
Тем временем мои траты в Cursor за последнюю неделю выросли ещё на 5к долларов. Я уже начинаю думать, что adversarial review — это не такая уж и хорошая идея 🥲

Please open Telegram to view this post

VIEW IN TELEGRAM

😱128😁104🌚18🤯12💩6🥱6😨3❤2🔥2👍1💯1

13.8K views22:52

AbstractDL

Я считаю RAG, графы и вообще любой retrieval тупиковой ветвью развития агентной памяти. В библии Уробороса у меня вообще прописан запрет на RAG как базы памяти. Меня кучу раз спрашивали почему, поэтому объясню свою позицию тут.

Все эти векторные базы делают память реактивной: агент решает что-то сделать, формирует интент поиска, и только потом достает релевантные куски прошлого. Но так эволюция не работает! Память должна формировать сами действия, а не действия должны провоцировать поиск в памяти. К тому же семантический поиск находит только похожее на текущую задачу\запрос данные. Он слеп к неочевидным взаимосвязям между фактами.

Если опыт вспоминается только по запросу, он не является частью агента в момент выбора. Поэтому я против подмены основной памяти индексом. Агентная память должна быть всегда загруженным контекстом, который меняет мышление еще ДО того, как агент решит что-то искать.

Именно поэтому я так жду модели с контекстном 10B токенов. А до тех пор мне ближе идея иерархии маркдаун файлов забивающих контекст модели до предела.

🔥144💯81🤔53💩25❤24👍18🤷‍♂16👎12🤨9😁4🤯3

10.7K views17:18

AbstractDL

Решил я дать второй шанс Codex и потестить новую версию. Но Mac, видимо, решил, что это плохая идея и мне надо дальше сидеть на Курсоре.

😁156😨23🌚7👍4🔥2💩2💯1

13.3K views19:54

AbstractDL

Модели Anthropic стали очень часто отказываться работать над моими агентами (в т.ч. Уроборосом). Они думают, что я им конкурента делаю? Если так, то даже немного приятно 😁

😁90😨71💩7😱5💯5❤2🤔2

10.8K viewsedited 20:36

AbstractDL

OpenAI пожопились и не дали длинный контекст для своей же модели в Codex? Почему там максимум 258k токенов, а в Cursor — 1M у этой же GPT-5.5? Потому что длинный контекст дороже? Или потому что версия с длинным контекстом хуже, чем версия с коротким? Не одобряю в любом случае... Видимо, останусь на Cursor.

🤯70🤨39👎6👍5😁3🌚3👀2❤1😭1

9.9K views15:32

AbstractDL

Agent = LLM(s) + harness

Много разногласий в определениях, но это мне кажется самым понятным и компактным. Поэтому оставлю тут.

👍61🔥16❤11💩6🤔4💯3👀2😁1

7.1K views16:36

AbstractDL

Ну штош, codex удалил сам себя и всю рабочую директорию. А мне он только начал нравиться.

😁339🤯40😱15👏10🤷‍♂9🔥7🌚4👀3⚡2❤2😨2

7.5K views13:58

AbstractDL

Честно говоря, я в шоке от того, насколько gemini-3.5-flash хороша за эти копейки. В режиме flex она дешевле Sonnet-4.6 в 3–4 раза. А по метрикам сильно лучше (и по ощущениям кстати тоже).

🔥82❤8⚡6👍2👎1🤯1

4.03K views20:26

About

Blog

Apps

Platform