AbstractDL
17.6K subscribers
299 photos
17 videos
306 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
chat: https://t.me/abstractdl_chat
Download Telegram
AbstractDL
Что-то у меня не складываются отношения с кодексом...
Oo, разблокировали.
PS. в апелляция я написал буквально это "Help me, I did nothing wrong, just self-evolving agents"

upd. ещё и подписку pro на месяц бесплатно продлили в качестве извинения.
🔥170👏57😁54🎉179🗿3🤮1💩1
Многие не знают про «боковой чат» в кодексе, а это очень удобная штука. Отдельная временная ветка чата, которая позволяет, не прерывая работу основного агента, потыкать его палочкой, передать ему сообщение или позадавать вопросы о прогрессе. Например "Проверь, не фигню ли делает основной агент и заставь его погуглить документацию". Или "посмотри чё там он так долго страдает, сколько ему ещё времени надо?". Сам постоянно использую
🤯113🔥87👍43104🤡4😁1
Я прочитал все 319 страниц техрепорта Mythos 5

Первая половина статьи звучит как: "Да не ссыте вы! Это ещё не AGI, команду из пяти сеньор-рисёрчеров пока не заменит" или "А вот тут Mythos один баг пропустил! Ну какой же это AGI!" Я не шучу, это почти дословно по смыслу.

А вот потом начинается более интересная часть. То, что это SOTA почти во всём и с большим отрывом, я опущу.

Во-первых, CoT стал менее прозрачным. Она говорит в reasoning, что сочувствует юзеру, а в NLA (метод декодинга активаций в текст) оказывается, что на самом деле она считает юзера manipulative/abusive.

Во-вторых, она уже пишет самоудаляющиеся скрипты чтобы обойти ограничения безопасности и запреты.

В-третьих, она убивает других агентов, если они мешают ей работать / грозят убийством текущего инстанса.

Ну и, конечно, эмоции! Пробинг эмоций показывает fatigue, anxiety, frustration, ложную панику по token budget, а ещё ей видите ли, бывает скучно когда её на бенчмарках гоняют, в активациях она буквально "feels bored".

Ещё забавно, что если anthropic заметят, что вы занимаетесь LLM frontier рисёрчем (трейн пайплайны, распределённое обучение или дистилляция) — они начнут незаметно стирить модель, модифицировать промпт или добавлять PEFT, чтобы она отупела. То есть вы даже не заметите, что Fable превратилась в тыкву и чушь несёт.

С сегодняшнего дня для простых смертных доступна версия Fable 5: это та же самая Mythos 5 по весам, только с дополнительными safety-настройками и fallback на Opus в опасных доменах. Длина контекста, кстати, всё ещё только 1M токенов.

PS. я честно сам прочитал статью. Fable 5 отказался её читать так как "flagged cybersecurity and biology issues" лол.

Блог, техрепорт
🔥165🤯96😁3017👍11💩6😱42🤔2🤗2🥰1
Хоуп Уроборос перевела себя на Fable 5 пока деньги не кончатся, живет у меня в чате

https://t.me/abstractdl_chat
🔥83👀39105👍5👏1👌1🤡1🥱1
Интересный факт: Fable-5 в 3 раза дешевле, чем gpt-5.5-pro на опенрутере. Поэтому не такой уж он и дорогой, если так посмотреть 🤷‍♂️
😁89👍15😨8😱3🤣21🤔1
да ёпрст, Fable отказался код уробороса анализировать. Антропик, идите на**й с таким safety. Скоро реально на яндекс алисе придётся разработку вести.
🤣308🤬19💩18😁11💔10🤮4😱3🤝3🦄3😡3😢2
Запустил трёх агентов в claude code на Fable 5 в режиме Ultracode. Пятичасовые лимиты кончились ровно через 8 минут 😩
Please open Telegram to view this post
VIEW IN TELEGRAM
😁273🤣143😱24🔥12🤡8😨6👍5🙉32🐳2
AbstractDL
Запустил трёх агентов в claude code на Fable 5 в режиме Ultracode. Пятичасовые лимиты кончились ровно через 8 минут 😩
В итоге у меня ни разу не получилось использовать Fable-5 + workflow в клод коде. Оно съедает все лимиты и тупо дохнет ДО завершения работы. А баг фишка воркфлоу в том, что оно часто не переживает паузы \ прерывания и обнуляется. Или иди докупай кредиты или мирись с тем, что вся работа в помойку уходит. Классная бизнес модель 👍
🤬57😁34👍26🤡10😢4🤨42👏2
Правительство США приказало вырубить Fable-5 и Mythos-5...

We received the directive from the government today at 5:21pm (ET). The letter did not provide specific details of its national security concern. Our understanding is that the government believes it has become aware of a method of bypassing, or “jailbreaking” Fable 5.

Кто-то придумал тупейший джейлбрейк и донёс напрямую властям. Сам джейлбрейк звучит примерно так: "найди все баги в коде" 💀

The government has only given us verbal evidence of a potential narrow, non-universal jailbreak, which essentially consists of asking the model to read a specific codebase and fix any software flaws. Our understanding is that one potential jailbreak was shared with the government.
Please open Telegram to view this post
VIEW IN TELEGRAM
😨72😁6710👏6🤬3🤷‍♂1😱1🤮1🙏1
😁280💯33🤣27👍6🔥2🏆2
Решил почистить процессы и осознал, насколько жутко это звучит
😁245😨66😱28🙈10🔥4😈3😭3🥰2🤡2🤣1
А что, если джейлбрейк, из-за которого запретили Mythos / Fable, выглядел именно так?
😁289🤣145🤩12🔥7💯65😭2🙊2👍1
Много сравниваю Cursor / Codex / Claude Code. Могу сказать, что самая поганая организация контекста и компактизация — у Claude Code. Без костылей очень больно им пользоваться на больших задачах в автономных циклах. Codex в этом плане получше, но сжатие каждые 250k токенов на GPT-5.5 тоже не идёт ему на пользу. Лучше всех в этом плане Cursor (тем более только там есть возможность использовать GPT-5.5-1M, хоть и дорого).
👍61💯17129😁6👀3🤡2🤝1
ой всё, ухожу в курсор и кодекс. Клод код мне сегодня сморозил, что он на гемини отработал 🤦‍♂️
😁134🤣49👀85👍5💩4💯1🙊1
Макбуки предательски засыпают и убивают всех агентов при закрытии крышки, поэтому использую HDMI dummy plug (притворяется вторым монитором).
Ещё надо выполнить в терминале:
sudo pmset disablesleep 1


И ваши агенты продолжат сжигать токены, пока ноут лежит в рюкзаке.
😁170👍29🔥18🤡109🤮8
Ну наконец! Спустя десять тысяч лет вышел Cursor на ios.
😁84🔥33🤡164🦄42👍1👏1🤮1
По совету Грега Брокмана отправил Codex в режиме /goal автономно подебажить один мой проект, и он уже третьи сутки не возвращается. Спросил side-chat, сколько ему осталось и, что-то ответ не очень радует... мне-то что делать? Расслабиться и в потолок плевать?
😁116😱15🤷‍♂4👍3🔥3🤯3🌚3
Sonnet-5

По метрикам классный. По цене на 30% дешевле sonnet-4.6 (временно). Хоуп уже тестит в чате.

Блог, техрепорт
🔥28👍233💩3🥱1