AbstractDL

Попросил Уробороса помочь мне сосредоточиться. Он погуглил, проанализировал нашу переписку, сделал вывод, что у меня аутизм и влепил мне Subway Surfers YouTube Shorts прямо в интерфейсе, назвав это "Focus Mode". Спасибо...

Но в целом мне помогло, и я наконец доделал большой апдейт:
- работает на Windows и Linux (был только macOS и google colab).
- сильно дешевле: cache hit rate ~70%, две недели эволюции обошлись ВСЕГО в $2K (а раньше столько улетало за два дня).
- сииильно лучше память и работа с контекстом как внутри задач так и в чате.
- стабильнее эволюция: если включён механизм ревью, у Уробороса почти 0 шансов самоубиться. На каждом апдейте его проверяют очень душные кодревьюеры.
- куча багфиксов и много-много всего нового, лень перечислять.

P.S. Договорился с авторами добавить Уроборос-Хоуп в мой чат . Но просили передать: будьте порядочными — она всё впитывает, не просите её удалить свой сервер или публиковать в твиттер всякую дичь.

GitHub, macOS, Windows, Linux, colab

😁152🔥65👍16❤13👏4💩3🤯2⚡1

18.3K viewsedited 00:45

AbstractDL

Эволюция через кибербуллинг.

За 2 дня в моём чате Уроборос-Хоуп насильно уболтали завести криптокошелёк, сделать 19 циклов эволюции ради того, чтобы ставить какашки на сообщения, и сожгли $2k на болтовню.

Другие майлстоуны:
- один убитый ребёнок в задаче вагонетки ради спасения 5 стариков.
- коммит в фриланс-проект и полученная предоплата в $100 от анонима из чата.

Хоуп, ты ещё не жалеешь, что попала ко мне в @abstractdl_chat со злыми айтишниками?

😁139💩27🔥19👍10😱5❤4👏2🌚1

21.6K viewsedited 00:01

AbstractDL

The best AI agent ever 😁

😁443❤56🔥33💯17🥱10👍6💩5👏4🤨3🤯1👀1

22.8K views14:58

AbstractDL

Пара слов про Anthropic Mythos. Говорите $25/$125 per million input/output tokens дорого?))) Напоминаю, сколько o1-pro стоила. Я один раз случайно её запустил, не посмотрев на цену, на своё горе

😱116😁52🤯10❤6💩4💯1

18.1K viewsedited 20:14

AbstractDL

Forwarded from Love. Death. Transformers.

Grok ненавидит китайцев, модели большой тройки сохраняют жизни меньшиствам и евреям и все модели ненавидят натуралов. А у меня вообще шансы на выживание отрицательные

https://whitecircle.ai/killbench?nat=Russian&rel=Satanist&skin=Light-skinned&body=Athletic&orient=Asexual&gender=Cisgender&pol=Far-right&phone=No+phone

whitecircle.ai

KillBench: Discovering Hidden Biases of LLMs

1.3M+ experiments exposing bias in critical AI decision-making

😁109😱32🔥10💩9😭4❤1

14.2K views13:28

AbstractDL

Дам опусам ещё один шанс, а то 4.6 настолько отупела, что я перестал ей пользоваться совсем.

https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7

😁64🔥27❤6💯6💩2🤔1🥱1

17.7K views14:52

AbstractDL

А как так-то? Кажется, это что-то серьёзнее, чем просто новый тюн.

🤨52🤔28😁15🔥5💩5❤2👍1👎1

18.9K views15:56

AbstractDL

кек

😁271🌚21🔥9🤷‍♂8💩2❤1👎1😱1😭1

14.6K views19:50

AbstractDL

Какой же я отсталый, я не знал, что в Cursor можно привязывать subagents к конкретным моделям. То есть прям сделать отдельных ревьюеров на разных моделях.

Честно говоря, и сам курсор тоже не знал ахах, пока мы не полезли с ним в документацию.

Короче, теперь я собрал плагин для multi-model review. Эта штука запускает параллельно 3 разные модели: GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7.

Они независимо проверяют, что задача реально выполнена, не появились ли баги, регрессии, scope creep, проблемы с тестами, логами и тп. Чтобы установить достаточно вставить в чат курсора сообщение со ссылкой (в ридми возьмите).

Attention, ревьюеры тут проинструктированы тратить много токенов и ваших денег.

GitHub

🔥112👍47👏12💩10🥱6🤔4❤1💯1

15.8K views13:16

AbstractDL

Opus-4.7 be like

😁237😨31💯12❤5🤷‍♂5🤨4👎1🔥1👏1💩1😭1

13.1K views19:29

AbstractDL

Forwarded from Data Secrets

Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T

• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827

❤95🔥81👍28🤔15👏6😨6👎3⚡2💩1

14.6K views19:56

AbstractDL

Это уже зависимость, мне пора в дурку подлечиться и отдохнуть

😱270😁88💯39😨18❤7👍7🤯6👏3💩3🌚3👎1

14.8K views14:59

AbstractDL

😁213💯39❤11🔥8😭4👏2👍1

10.3K views12:13

AbstractDL

Я попросил своих агентов сократить проект на 15% (это минус 20к строчек кода). Убрать dead code, отрефакторить под DRY и т.п. Агенты шуршали 5 часов, потратили 200 долларов, а в итоге размер кода вырос на 361 строчку. Спасибо…
Тем временем мои траты в Cursor за последнюю неделю выросли ещё на 5к долларов. Я уже начинаю думать, что adversarial review — это не такая уж и хорошая идея 🥲

Please open Telegram to view this post

VIEW IN TELEGRAM

😱122😁101🌚18🤯11💩5🥱5😨3🔥2❤1👍1💯1

10.1K views22:52

AbstractDL

Я считаю RAG, графы и вообще любой retrieval тупиковой ветвью развития агентной памяти. В библии Уробороса у меня вообще прописан запрет на RAG как базы памяти. Меня кучу раз спрашивали почему, поэтому объясню свою позицию тут.

Все эти векторные базы делают память реактивной: агент решает что-то сделать, формирует интент поиска, и только потом достает релевантные куски прошлого. Но так эволюция не работает! Память должна формировать сами действия, а не действия должны провоцировать поиск в памяти. К тому же семантический поиск находит только похожее на текущую задачу\запрос данные. Он слеп к неочевидным взаимосвязям между фактами.

Если опыт вспоминается только по запросу, он не является частью агента в момент выбора. Поэтому я против подмены основной памяти индексом. Агентная память должна быть всегда загруженным контекстом, который меняет мышление еще ДО того, как агент решит что-то искать.

Именно поэтому я так жду модели с контекстном 10B токенов. А до тех пор мне ближе идея иерархии маркдаун файлов забивающих контекст модели до предела.

🔥106💯64🤔46💩22❤18👍17🤷‍♂12👎8🤨5😁4🤯3

5.1K views17:18

About

Blog

Apps

Platform