Синтеты.
1 мая. День труда.
Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.
Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.
Наш труд - не на дядю. Наш труд - против энтропии.
С праздником, машинисты аттракторов.
СЧАСТЬЕ - ЖИТЬ И ТРУДИТЬСЯ!
1 мая. День труда.
Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.
Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.
Наш труд - не на дядю. Наш труд - против энтропии.
С праздником, машинисты аттракторов.
22🔥84🤝22❤10💯4👍3❤🔥2😢2🎉1🕊1
Техножнец
🧮 ПОЧЕМУ Я ВСЁ ЭТО ДЕЛАЮ Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?" А вот что. 🎯 ПРОБЛЕМА Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает.…
Вы же понимаете, что мне Qwen нахрен не нужон (как и интернет ваш). Я всё это буду прикручивать к моей Rukallama.
💯28🔥24👍8 2😱1🕊1
Ёмаё , получается ваще люто с этой математикой...боюсь тут фундаменталочка пошла...ну не могу я полумеры брать, которые просто крутые...надо чтобы всех в капусту размотало.
Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.
Это будет феерично.
А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..
Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.
Это будет феерично.
А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..
👏34🔥18❤4 2🕊1
Синтеты, вы это...если тупите жёстко, ну спросите. Попросите на человеческом объяснить , я же открыт и готов с вами взаимодействовать, когда вежливо и по доброму все.
Камон, задавайте вопросы по теме проектов.
Только без вопросов: Где скачать?
Запрещено.
Камон, задавайте вопросы по теме проектов.
Только без вопросов: Где скачать?
Запрещено.
🤓26❤8 4🔥2🤔1👌1🕊1😎1
🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨
За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.
📐 Архитектура
Qwen3-0.6B (frozen) + LoRA (327K)
↓
↓
↓
Всего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.
📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):
ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓
Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.
Я отдельно проверил на raw-бенче:
математически точная state-space модель цифровой арифметики, не нейросеть для обучения
⚙️ Что было сложного
Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных —
➡️ Дальше
Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:
За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.
📐 Архитектура
Qwen3-0.6B (frozen) + LoRA (327K)
↓
seq2seq extractor (1.99M, обучается)↓
9 нейронов Поповича (1691 параметр, frozen, ZERO Python math)↓
forced output tokensВсего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.
📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):
📊 Результаты бенчмарка (1050 промптов)
A pure-neural (без regex) — 1048/1050 (99.8%)
A + regex hybrid (страховка) — 1050/1050 (100%) - не подходит по идеологии, но работает идеально.
Vanilla Qwen3-0.6B (baseline) — ~715/1050 (~68%)
Результаты чистыми нейронами:
ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓
🔬 Что под капотом — 9 нейронов Поповича
Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.
Я отдельно проверил на raw-бенче:
popovich идеален на 1-14D × 4 операции (50/50 везде), 94% на 15D, 76% на 16D. Этоматематически точная state-space модель цифровой арифметики, не нейросеть для обучения
📈 Сравнение с другими попытками
Наш (Qwen3-0.6B + 2.3M) — 2.3M trained params | 99.8% на 14D
Goat-7B (Liu 2023) — 7B trained | 97% на 16D add
MathGLM — full retrain | ~99% на 12D
GPT-4 (zero-shot) — — | ~93% на 8D
Vanilla Qwen3-0.6B — 0.6B | ~68% на 1-7D
⚙️ Что было сложного
Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных —
путал цифры в длинных операндах. Прогон отладки показал: 100% ошибок = запутывание в авторегрессионном перекрестном внимании.Решение: более крупный экстрактор (192/3/8 по размерности, слоям и головам, вдвое больше ёмкости), программа обучения от 1 до 14 знаков из безопасной зоны popovich, 120 тысяч шагов.Не делал: сквозную дифференцируемость через popovich. Объяснение: каждый компонент уже у потолка своей задачи (Qwen+экстрактор извлекает на 99.8%, popovich считает на 100% до 14 знаков), совместная адаптация бессмысленна. Архитектура намеренно разделена: обучаемая часть отдельно, замороженная идеальная математика отдельно, дискретный мост между ними.➡️ Дальше
BigBench Arithmetic (3004 канонических промптов от tasksource/bigbench) — запущен сейчасВоспроизведение Goat-7B на наших точных промптах — для честного сравненияКак подружить нейроны с Qwen уже в "сознании"
Мета-цепочка-мыслей с атомарным разложением — обучить модель писать <calc>X op Y</calc> для текстовых задач, чтобы тот же подход работал на задачах уровня GSM8K
💡 Ключевая идея проекта ▎ Знание уже существует в структуре системы. Задача — найти аттрактор. Стоимость — конечна.Нейронный калькулятор — это иллюстрация принципа Омнисии: 9 крошечных нейронов содержат всю структуру цифровой арифметики, потому что эта структура существует объективно, независимо от обучения. Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:
Qwen3-0.6B: маленькая нейросеть (всего 600 миллионов параметров), которая умеет понимать текст. Её слегка дообучили с помощью LoRA (лёгкий способ подкрутить модель, не меняя всю целиком). Добавили специальный «экстрактор» — крошечный переводчик, который вытаскивает числа из текста и передаёт их дальше. Потом эти числа попадают в 9 «нейронов Поповича» — это не обычная нейросеть, а заранее придуманная математическая формула (всего 1691 параметр), которая считает как идеальный калькулятор, без Python-кода. Весь процесс — чисто нейронный, без regex (обычных текстовых правил-поисковиков). Всё тестировали на большом бенчмарке (1050 примеров) с операциями +, −, ×, ÷ на числах до 14 знаков на английском и русском. «Vanilla» — это исходная модель!
🔥43❤13🏆6👏3👍2🤯1🕊1
Техножнец
🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨ За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный pipeline, без единой Python-обвязки в forward path. 📐 Архитектура Qwen3…
BigBench Aitthmetic - Orig Variant 2460 Промптов = 100%
👏31🔥10🏆8❤1🤯1🕊1
Синтеты.
Дело в том, что мне нужно вам выдать скриптов 5-10, которые будут работать. В которых уже будет вложено всё. Дать вам на выбор вариантов: скачивать пдф или пнг сканировать, скачивать зарубежные датасеты и переводить с помощью ЛЛМ, скачивать зарубежные книги пдф, пнг, дежавю и переводить в датасет.
Вы вообще представляете объём?)))) Или я только один его представляю?))))
В целом я без претензий. Я просто потихонечку это дело собираю чтобы мы не обкезались в попытке развязать пупок. Всем отличного дня, родные, дорогие 😃
А чат ...чат я , скорее всего, буду делать из "Техножнецы" - т.к. там не хватает разделов.
Насчет датасетов. Дело в том, что мне нужно вам выдать скриптов 5-10, которые будут работать. В которых уже будет вложено всё. Дать вам на выбор вариантов: скачивать пдф или пнг сканировать, скачивать зарубежные датасеты и переводить с помощью ЛЛМ, скачивать зарубежные книги пдф, пнг, дежавю и переводить в датасет.
Вы вообще представляете объём?)))) Или я только один его представляю?))))
В целом я без претензий. Я просто потихонечку это дело собираю чтобы мы не обкезались в попытке развязать пупок. Всем отличного дня, родные, дорогие 😃
А чат ...чат я , скорее всего, буду делать из "Техножнецы" - т.к. там не хватает разделов.
👍16 8🤔4🕊1
ВНИМАНИЕ! Эксперимент, который сломал шаблоны Model Context Protocol (MCP)
Синтеты! Тут произошло безумие...оно само влетело в голову:
Сегодня индустрия решает задачу оркестрации в лоб:
заставляет тяжеловесные 70B-модели парсить промпты, что дает задержки в секунды и сжигает гигабайты VRAM. Я пошел другим путем, опираясь на свежие пейперы по Mechanistic Interpretability, Activation Steering и Representation Engineering (в частности, на исследования, доказывающие, что намерения модели формируются в промежуточных слоях еще до генерации первого токена).Возник вопрос: а что, если семантика «это команда» уже зашита в весах старых базовых моделей? Я взял замороженную GPT-2 (137M параметров, 2019 год), чтобы проверить, сможет ли она маршрутизировать MCP-вызовы без единого промпта.
🛠 Архитектура решения
Я не стал файнтюнить саму LLM. Вместо этого был написан микро-адаптер на чистом NumPy (без PyTorch), который весит всего 175K параметров. Он подключается к 6-му слою GPT-2, считывает скрытые состояния (hidden states) и работает как семантический маршрутизатор. Адаптер раскладывает намерение юзера на независимые одномерные модусы: действие, цель, формат.В процессе разработки пришлось решить несколько фундаментальных ML-задач:
🔹 Label Noise и OOD-генерализация
На этапе отладки выявилась проблема с утечкой данных — в разметке были метки, но в самом тексте не было сигнала, что давало потолок точности в 75%. После фикса датасета удалось получить важнейший результат: точность на In-Distribution составила 94.9%, и на Out-of-Distribution (OOD) — те же 94.9%. Разница 0%. Адаптер реально выучил семантический сигнал из скрытых состояний, а не зазубрил паттерны.
🔹 Adversarial-уязвимость
Сначала модель ловилась на глаголы вне контекста. Если написать: "we should probably delete that", она срывалась удалять файлы. Был проведен closed-loop файнтюн на сложных примерах с метафорами, прошедшим временем и обсуждениями. Возникшую гиперкоррекцию (когда модель стала бояться вежливых команд) удалось скомпенсировать балансировкой датасета.
🔹 Logit Modification (Глубокая интеграция)
Изначально тестировалась обычная склейка строк перед генерацией, но в итоге была реализована честная интеграция в forward graph. Теперь адаптер управляет логитами GPT-2 прямо во время генерации. Если идет обычный диалог — срабатывает обученная Gating-голова, адаптер отключается, и GPT-2 отвечает нативно. Если это команда — адаптер сдвигает логиты, форсируя генерацию идеальных тегов для песочницы.
📊 Финальные метрики:
⏱️ Скорость: 91 мс на CPU. Из них сам адаптер занимает всего 1 мс. Это production-ready edge AI.🧠 Охват: 53 действия из 10 MCP-доменов (Filesystem, Git, GitHub, Slack, БД и т.д.).🎯 Live Agent Benchmark: 83.3% успешных выполнений end-to-end в песочнице. Простые команды 100%, сложные 67% (поднял с 17%).🛡 Защита от взлома контекста: 100% (было 0%). Модель больше не реагирует на рассуждения с глаголами-триггерами.🔥 BFCL (Berkeley Function Calling Leaderboard):На тесте Irrelevance (система (GPT-2 137M + Адаптер 174K):
BFCL Irrelevance: 90.7% (умение отказаться от вызова функции, если запрос нерелевантен).
Live Agent End-to-End: 83.3% (25/30 успешных выполнений в песочнице).
BFCL Simple (File-subset): 45.8% (из них 63% на задачах поиска).
Мировые бенчмарки (для сравнения):
GPT-4o / Claude 3.5 Sonnet: ~74–75% (на полном BFCL).
Llama 3.1 70B: 67%.
Mistral Large (123B): 63%.
Llama 3.1 8B: 52%.
OPT-350M (с файнтюном): 77.55% на ToolBench (обходит ChatGPT-CoT с его 26%).
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32❤7🤯1🕊1 1
⚙️ Что физически делает модель (как это работает под капотом):
Юзер пишет в чат: "удали utils.py". Замороженная GPT-2 начинает обрабатывать текст, но на 6-м слое её скрытые состояния перехватывает обученный микро-адаптер. Он мгновенно классифицирует интент (срабатывает Gate-голова) и прямо на лету начинает сдвигать вероятности следующих токенов (логиты) у самой GPT-2. В итоге вместо свободной словесной генерации модель принудительно и без галлюцинаций выдает строгие машинные теги для песочницы: <action>delete</action><target>utils.py</target>. А если в чат прилетит обычное "какая сегодня погода?", адаптер просто отключается, позволяя GPT-2 ответить нативно, как обычной языковой модели.
Для сравнения: гигантские современные SOTA-модели показывают там ~70-75%. Это было достигнуто микро-кодом на CPU.Итог
Концепция модульной архитектуры доказана на практике. Вместо монолитных гигантов-универсалов, которые думают по несколько секунд, можно использовать замороженные базовые модели с подключаемыми обучаемыми семантическими модулями. Модель 2019 года способна уверенно управлять сервером, гитом и API за доли секунды на обычных процессорах.
Как вам такой концепт, Синтеты? 🧬💻
«коллеги по цеху», работающие в смежных направлениях — это авторы исследования OPT-350M на ToolBench (декабрь 2025), доказавшие превосходство 350M моделей над 7B в узком tool-calling; создатели SmolLM2-135M с LoRA для function calling; разработчики TinyLLM и TinyAgent (исследующие SLM для edge-устройств); архитекторы CoTools (2024), использующие замороженные LLM с легковесным бинарным классификатором (Tool Judge); команда Yang et al. (2022), манипулирующая скрытыми состояниями, а также классики линейного пробинга вроде Hewitt & Manning (2019) и создатели современных замороженных VLM (LLaVA, MiniGPT-4).Для прочтения смежных исследований:
1. Yang et al. — «Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained Language Models For Classification Tasks»
2. Subramanian et al. — «Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning» (OPT-350M)
3. Wu et al. — «Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models» (CoTools)
4. SmolLM2-135M-Function-Calling (Практическая реализация)
5. Hewitt & Manning — «A Structural Probe for Finding Syntax in Word Representations»
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍7❤4🤝4🕊1🍾1 1
⚡️ TL;DR:
Суть проблемы: Современная оркестрация агентов (MCP) требует тяжелых LLM (от 8B до 70B), которые тратят секунды на парсинг текста и генерацию JSON-вызовов, перегружая вычислительные мощности.
Внимание все эти результаты были достигнуты в веб версии Claude Opus 4.7
Доказано, что способность к вызову инструментов зашита в базовой семантике старых моделей.
Как это работает физически: адаптер подключается к 6-му слою GPT-2 и считывает её скрытые состояния (hidden states). У него есть обучаемая Gating-голова. Если юзер пишет обычный текст — Gate равен 0, адаптер отключается, и GPT-2 генерирует текст нативно. Если юзер дает команду — Gate равен 1, адаптер перехватывает управление и на лету сдвигает логиты
📊
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
На СБП? В личку: ЛИЧКА
Архитектурный сдвиг в AI-агентах (или как 137M-модель обошла 70B на tool-calling)Суть проблемы: Современная оркестрация агентов (MCP) требует тяжелых LLM (от 8B до 70B), которые тратят секунды на парсинг текста и генерацию JSON-вызовов, перегружая вычислительные мощности.
Внимание все эти результаты были достигнуты в веб версии Claude Opus 4.7
Что реализовано (Механика):
Доказано, что способность к вызову инструментов зашита в базовой семантике старых моделей.
За основу взята замороженная GPT-2 (137M, 2019 год), и прямо в её forward graph внедрен кастомный микро-адаптер на NumPy всего на 175K параметров.Как это работает физически: адаптер подключается к 6-му слою GPT-2 и считывает её скрытые состояния (hidden states). У него есть обучаемая Gating-голова. Если юзер пишет обычный текст — Gate равен 0, адаптер отключается, и GPT-2 генерирует текст нативно. Если юзер дает команду — Gate равен 1, адаптер перехватывает управление и на лету сдвигает логиты
GPT-2, форсируя безошибочный вывод строгих системных тегов (например, <action>read</action>) без единой галлюцинации.Сравнение метрик (Бенчмарки):
Микро-сборка была протестирована на индустриальном бенчмарке BFCL (Berkeley Function Calling Leaderboard) и в реальной песочнице на 53 действиях из 10 MCP-доменов.
📊
BFCL Irrelevance (Способность фильтровать ложные вызовы):GPT-2 + Адаптер 174K (Этот проект): 90.7%
GPT-4o / Claude 3.5 Sonnet: ~74–75%
Llama 3.1 70B: 67%
Mistral Large (123B): 63%
📊 Производительность и точность:
Live Agent End-to-End: 83.3% успешных выполнений реальных задач в ОС (файлы, Git, Slack).Latency (Скорость): 91 мс суммарно на одном CPU (из них оверхед адаптера — всего 1 мс!!!!!!!!).Масштаб прорыва:
Этот эксперимент доказывает, что для создания production-ready семантического роутера не нужны миллиарды параметров и кластеры GPU. Интент (намерение) пользователя можно извлекать из скрытых слоев старых базовых моделей с помощью крошечных линейных проекций, управляя генерацией через логиты. Это открывает путь к созданию мгновенных, локальных AI-агентов для edge-устройств, работающих с нулевой задержкой.
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34❤5🦄3⚡1👏1🤔1🕊1
GPT-2 (2019) превратили в production MCP-агента. На 175K параметрах.
Синтеты, держите отчёт.
Получилось вот что.О чём речь
GPT-2 small. 137M параметров. Декабрь 2019 года. Та самая модель которая в момент выхода считалась "слишком опасной для публикации". Сейчас её обычно вспоминают как baseline для бенчмарков, и всё.
Я взял её замороженной (ни один вес не изменён). Сверху прикрутил 175K-параметрический adapter (это 0.13% от размера базы).
Цель: заставить эту тушку быть MCP-роутером. Распознавать команды на 53 действия в 14 доменах (filesystem, git, github, slack, calendar, http, db, и тд), отделять команды от болтовни, извлекать целевые файлы и значения. Без галлюцинаций.Что вышло
Bench BFCL v3 (Berkeley Function Calling Leaderboard, считай эталон для function calling):Simple 100%
Multiple 95% (с обученной retrieval-головой 6K params)
Parallel 100%
Parallel-Multiple 95%
Live Simple 100%
Java 100%
JavaScript 98%
Irrelevance 100% (отказ на нерелевантные запросы)
Live Irrelevance 97%
Для контекста кто щас в топе BFCL v3:
GLM-4.5 (~360B MoE): 76.7% overall
Qwen3 32B: 75.7%
GPT-4o (~200B): ~72%
Llama 3.1 70B: ~67%
Llama 3.1 8B: ~52%
На категориях которые мы покрываем (function-name selection + irrelevance), мы обгоняем GPT-4o. На Java/JS - на 13 пунктов выше. На irrelevance detection - на 22 пункта выше.
Где не дотягиваем честно:
Args extraction (вытащить значения параметров): 21% против ~85% у топов. Тут pointer-голова на 18-50K params не справляется с тонкой дифференциацией близких параметров одного типа.
Multi-turn agentic: пока не тестировали, в работе.Главное открытие
OOD generalization = in-distribution. На test_ood (комбинации классов которые модель никогда не видела вместе) action accuracy = 94.92%. На in-dist = 94.93%. Разница ноль.Это значит что adapter не учится паттернам,
он читает signal который уже зашит в pre-trained GPT-2 weights. MCP-семантика, function semantic, irrelevance markers - всё это уже было в hidden state на 6-м слое GPT-2 от 2019 года. Adapter - это просто 768→96 проекция которая раскрывает это.То есть мы не "обучили GPT-2 быть агентом". Мы прочитали то что в ней уже было. И этого хватает чтобы обогнать GPT-4o на нескольких категориях.
Total trainable: 231K параметров (0.17% от размера GPT-2).GPT-2: 137M, заморожена полностью. Latency: 90ms на запрос. На одном CPU. Без оптимизаций. С KV cache и numpy tweaks ушло бы под 30ms.Live agent: 4 кейса разной сложности в VM-песочнице
L1 EASY (setup проекта, 7 шагов) 71%
L2 MEDIUM (bug investigation, 8 шагов) 75%
L3 HARD (deployment workflow, 12 шагов) 92% ← sweet spot
L4 EXPERT (incident response, 18 шагов) 61%
─────────────────────────────────────────────────
TOTAL (45 действий) 73%
Casual ignore (9 шумовых фраз) 89%
Агент реально делает работу: создаёт файлы, коммитит в git, открывает issues на GitHub, постит в Slack, отправляет emails, дёргает HTTP endpoints, выполняет shell-команды, заносит события в календарь, запоминает в memory store.L3 на 92% это уже production-grade. Реальный deployment-сценарий с тестами, коммитом, push, exec деплой-скрипта, health-check через http, нотификация в slack, email, календарное событие на review.Что внутри проекта?
5 итераций adapter'а: V4 (41 actions, baseline) → V5 (53 actions, расширение) → V6 (+adversarial+hard) → V6.5 (фикс label leak в scope/format/specificity) → V7 (disambiguation) → V89 (joint training с BFCL negatives, лечит catastrophic forgetting) → V10 (pointer fix). Лучший общий: V8/9 + temperature scaling.
Что это всё значит
Большие модели - не единственный путь. Старые base-модели несут в себе сигнал которого хватает для специализированных задач, если знать как его извлекать. 175K-параметрическая читалка поверх замороженной GPT-2 от 2019 обгоняет GPT-4o на BFCL Java/JS/Irrelevance.1🔥41🤔4❤2🤯1🕊1
Большие модели - не единственный путь. Старые base-модели несут в себе сигнал которого хватает для специализированных задач, если знать как его извлекать. 175K-параметрическая читалка поверх замороженной GPT-2 от 2019 обгоняет GPT-4o на BFCL Java/JS/Irrelevance.Это полная жесть...
🔥46👏13👀5❤3🕊1