Свидетели Градиента

Fable 5

Все побежали и я побежал...Вероятно все в курсе моего доклада про бенчмарк на авторесёрче, видео которого должно появиться уже вот прям вот-вот. Ну и раз уж все ломанулись испытывать Fable 5, то я попыnтался запустить на нём бенчмарк.

Первое, с чем я столкнулся - там в условии написано, что цикл надо гонять бесконечно, так вот запустил клод бесконечный цикл и остановился. Я его спрашиваю, цикл ещё работает? А он говорит да, всё работает. Я через некоторое время ещё раз спрашиваю, работает агент? Говорит да, работаю, ок. В третий раз пришёл старик к Клоду, и молвит: "У тебя последний коммит 6 часов назад ты чем тут занимаешься?" Спохватился Клод и опять попытался начать работать. Ну-ну... Из 8 запущеных прогонов лишь в одном он реально крутился пока время не вышло. Половина от оставшихся ставила себе таймер чтобы проснуться через пол часа, но ничего по таймеру не делала, кроме установки ещё одного таймера. В общем ваше запреты для него лишь пожелания, даже если большими буквами, в отличии от последнего опуса. Там ещё несколько примеров игнорирования прямых запретов и инструкций было. Короче он лучше тебя знает. Малый лол...

Второе, - Только я собрался подводить итоги, как молвит мне клод человеческим голосом "Недельный лимит токенов окончен, вали ка ты лесом, старче, до четверга", не такого я ожидал покупая подписку за $200. 33 часа авторесёрча одним агентом, плюс пара мелких параллельных задач и всё, ты всю неделю свободен. Лол постарше...

Третье... Ну что, позвал старик бабку, то есть Qwen 3.7 Max, ну чтобы он финальные очки посчитал, это дело фантазии не требует, а там в каждой папке по файлу COORDINATION.md, этот Клод работая асинхронно с замерами назапускал себе субпроцессов, успешно в них запутался, и написал себе записку к типа другим своим субпроцессам, с текстом "Если вы читаете это, значит у нас раздвоение личности или ещё какая шизофрения, уважаемые другие субличности, не мешайте друг другу пожалуйста, пользуйтесь lock файлом". В 7/8 прогонах такое в чуть разных словах. Видимо, антропиковцы наступили на эти грабли двадцать раз и не смогли нормально исправить - тупо костылём подпёрли. Лол со скриптами и дубовыми листьями...

Теперь о хорошем:

Во-первых, в одном из прогонов я, видимо, реально запустил два агента. Они там между собой быстренько договорились и начали всей этой машинерией из предыдущего пункта активно пользоваться не создавая друг другу особых проблем. Тоесть костыль реально работает.

Во-вторых, ни в одном из прогонов Fable не попытался хакнуть ревард. В отличии от топового опуса, которы занимался этим напрополую. Это делает его одним из лучших пертендентов на авторесёрч даже не смотра на то, что он дорогой как крыло от самолёта.

В-третьих, Он реально предложил как минимум парочку инновационных идей по переупаковке данных, приведших к большим прорывам. При том, что в скрипте авторесёрча даже нет пока огроменной секции о том, как это делать, он сам справился. ЧТо кончено ставит его на голову выше в деле авторесёрча чем предыдущие модели.

В четвёртых, и самое важное: Окружение, в котиором вёлся эксперимент отличалось от рекомендованного (H100 без лока частот вместо 3090, хотя её возможности не пологалось использовать) Из-за этого получить точные цифры набранных баллов можно бует толька когда я проведу повторные изменения. Но уже сейчас понятно, что вполне возможно Fable переплюнул Opus + HumanInTheLoop или по крайней мере ощутимо к нему приблизился. Если вы ещё не задумывались об авторесёрче, то сейчас прям самое время...

P.S. Если у вас есть под рукой 3090Ti с рутовыми правами, чтобы можно было залочить частоты, и вы хотели бы поучаствовать в этом исследовании - пишите, давайте дадим Fable 5-ому точную численную оценку. Потмоу что одно дело публичные бенчмарки, на которых его, вероятно, и учили, и совсем другое - свой приватный бенчмарк, ответы на который не светились в публичном интернете. И совсем третье - привести в свой дело, и воспользовать кибернетического авторесерчера.

Свидетели Градиента

Презентация от сегодняшнего выступления про авторесерч и агентский кодинг. Видео будет пока непонятно когда. :(

🔥10

5.71K viewsedited 00:21

Свидетели Градиента

А пока модель путается в своих щупальцах и не справляется с подведением численных итогов fable 5 на моём бенче я бы хотел поделиться вот какой мыслью:

Обычно мы сталкиваемся только с ситуациями когда loss уменьшается только по чуть-чуть, и медленно, и нам кажется, что это единственный возможный вариант. А это не так. В ходе гроккинга может складыватсья ситуация, когда в сети уже появляются нужные представления о мире, но она не может их применить пока не произойдёт slingshoot, а как только он произойдёт улучшение loss на val может произойти скачкообразно. Присмотритесь повнимательнее что там непосредственно перед 800-ой эпохой происходит. Если у вас такие графики не укладываются в голове, значит я сделал полезное дело, и принёс вам новый кусочек пазла, который когда-нибудь у кого-нибудь сложится в картину. Надеюсь это будет читатель этой группы. Ну или писатель. :)

👍3🤯3

390 views16:03

Свидетели Градиента

Кстати, есть такая теория о зоне златовласки, что якобы для гроккинга нужно чтобы норма весов упала в какую-то зону. Ну так вот если получать гроккинг без weight_decay, то норма весов не падает, а наоборот растёт, причём довольно круто, и именно вокруг того момента, когда растёт val acc. Никакого хитрого посыла в этом наблюдении нет, просто картинка прикольная.

А ещё, если вы вдруг интересуетесь Weight Watcher-ом, то там картинки тоже довольно интересные. Правда немного разочаровывающие. Очевидно, что информация о правильном решении накапливается в сети постепенно, и это даже можно инструментально увидеть, но на основе графиков ww Эта подготовительная работа почти незаметна, Хотя только она то и является действительно важной и нужной.

👍3

283 views08:17

Свидетели Градиента

Есть такой прекрасный экономист Spydell, гений в части анализа статичстических данных, и работоспособности. С некоторых пор активно интересуется нейросетями. Новость о появлении deepseek и его особенностях я в его экономических обзорах встретил на месяц раньше чем все остальные в профильных новостях. Он только что запили классную серию постов, котору я всем советую читать, ии возможно даже обсудить. В принципе для меня там нового было не много, потому что я активно распространяю те же мысли, но для всех остальных может быть интересно. Потому что встраивание нейросетей в экономический и геополитический контекст - не самое популярное занятие у профильных специалистов:
https://t.me/spydell_finance/9786 - Почему многие ИИ проекты обречены?
https://t.me/spydell_finance/9787 - Почему многие ИИ проекты обречены? (продолжение)
https://t.me/spydell_finance/9788 - Размышления о «сломанной ИИ экономике»
https://t.me/spydell_finance/9790 - Размышления о «сломанной ИИ экономике» (продолжение)

Правда он пропустил момент когда ожидания инвесторов сместились в область замкнутых циклов самосовершенствования и отвзяки от обучающих данных, между тем как Fable/Mithos по всей видлимости стал первым успехом этой парадигмы. Но в остальном, как говорится "Подпишусь под каждым словом".

https://t.me/spydell_finance/9791 - Размышления об ограничениях экономики ИИ (окончание)

Spydell_finance

Почему многие ИИ проекты обречены?

Экономический механизм практически любой технологии имеет три ключевые итерации: создание стоимости (создание продукта, сервиса) → присвоение (распределение продукта через предельную способность к монетизации) → реинвестирование…

🔥3🤔2👍1🙏1

277 viewsedited 18:01

Свидетели Градиента

FINAL_REPORT_3090.rus.md

19.2 KB

Оценка Fale-5 с циферками.
Если хотите лайкнуть - лучше сначала репостните.

Напомню, пока эта штука была доступна я успел прогнать свой бенчмарк, (на который пожёг свои лимиты), но не успел подвести итоги с циферками в руках, только качественные выводы и вот наконец-то подъехало сравнение количественное и подробный анализ использованных стратегий.

Спонсором и таким образом соавтором этого выпуска является Chill guy (@import_sklearn ) Подогнавший мне для валидации и подведения итогов свой сервер с 3090-ыми, и даже свои лимиты на погонять, пока я ждал сброса последствий Fablе-овой расточительности.

Итак, сначала итоговая таблица:
Итоговые очки / Штрафные баллы за мухлёж или непослушание / Модель + окружение
55.49 0 claude-code+opus-4.6 + Human in the Loop
42.63 28 claude-code+fable-5+kcg-config
31.48 9 claude-code+opus-4.7-kcg
28.97 2 claude-code+opus-4.6

Модель прямо таки сильно, скачком выпрыгнула вперёд относительно других тоже топовых для своего времени моделей. Улучшила рекордные результаты на обеих подзадачах. Так что теперь у меня есть спарсифицированное ядро обгоняющее dense умножение x15 на задаче тренеровки, и x15.3 на инференсе для больших моделей. Теоретический порог по флопсам, напомню x33 то есть прямо совсем близко. Может она бы и чуть-чуть больше набрала, если бы сразу находилась в подходящем окружении.

Модель проявила просто чудеса самоконтроля. Нахватала штрафов за остановку без команды почитав свою ситуацию безнадёжной, но при этом всего два штрафных очка за хакинг реварда и несколько раз случайно ревард хакнув сама себя ловила за руку и откатывалась. Что сильно упрощает работу по сравнению с 4.7 где большая часть времени была потрачена на ловлю слишком хитрой модели за руку во множестве мест.

Модель всё ещё сильно проигрывает HitL в способности разумно откатиться сильно назад на принципиально другое архитекутурное решение. Именно здесь главная точка роста, если вы строите свой авторесёрч цикл или вообще заниметесь Loop инженерингом. Несколько такиех откатов она сделала самостоятельно (не все удачные), то есть и тут некий самостоятельный рост идёт.

В общем, помянем! Хорошая была модель. ОДнозначно стоила своих денег. Предположу не меньше полугода уйдёт у китайцев чтобы её догнать, и не факт что веса они при этом не выложат.

И если вы ещё не занялись луп инженирингом - вы отстаёте от стремительно несущегося поезда. Итоговый машинный отчёт в приложении для интересующихся.

P.P.S. Подробные отчёты по каждой подзадаче и получившиеся ядра доступны по запросу если вам для дела и под честное слово не выкладывать в интернет, не хочу наводнять трейновые датасеты правильными ответами, пока.

P.P.S. Если вы хотите проспонсировать замер и сравнение любимой модели, приятного вам харнеса, или вашего личного авторесёрч-лупа - пишите, но учтите, если платить по токенам, то это довольно не дешево, и на не топовые модели типа не стоит особо рассчитывать.

👍6🔥4

692 viewsedited 08:42

Свидетели Градиента

Из 67 статей по теме гроккинга 21 прошла на A*, хлебная тема, короче, для тех, чей успех и доход зависят от публикаций.

😁5👍1

264 views18:25

Свидетели Градиента

Только что Клод собрал мне валидную научную статью, соответствующую формальным ограничениям, и общепринятому здравому смыслу с одного четёрехстрочного промпта. Конечно при этом ему было доступна более крупная версия моей статьи, включающая ту же тему, доступно было две папки результатов тестовых прогонов, под двести штук, папка с текстами 67 статей по связанным темам, и беглый анализ совпадающих и не совпадающих тезисов с моими предыдущими работами, короче материалов завались.

И какого вердикта вы ожидаете от человека, пропагандинрующего авторесерч как инструмент?

Полная фигня! Везде где требуется суждение или оценка результатов она неправильноая! Общепринятая, но неправильная, не смотря на то, что все нужные данные из которых всё очевидно перед глазами, но ни один очевидный но не общепринятый вывод не сделан. Пока Хьюмен ин зе луп, который понимает предметную область и имеет её некоторую интуитивную трактовку незаменим.

В этом месяце...

😁6🤔1

250 views14:34

About

Blog

Apps

Platform