🧮 ПОЧЕМУ Я ВСЁ ЭТО ДЕЛАЮ
Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?"
А вот что.
🎯 ПРОБЛЕМА
Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает. Угадывает.
На простых вещах работает. На сложных — рассыпается. Спросите ChatGPT решить уравнение
Костыль индустрии: научили модель звать внешний Python-калькулятор. Работает. Медленно, дорого. И главное — это не понимание.
🔬 ЧТО Я ДЕЛАЮ
Строю точные алгоритмы внутри нейросетей. Не угадывание — реальное вычисление прямо в потоке "думания" модели.
9 маленьких нейронов. Уравнение Риккати находит скрытую структуру любой детерминированной задачи. Найдя структуру — нейрон даёт точный ответ. Не приближённый. Точный.
Подключаю их к большим моделям как встроенный модуль. Не сбоку, не через API — внутрь генерации. Язык + алгоритмика. Понимание + вычисление.
📊 ЧТО УЖЕ РАБОТАЕТ
▸ Арифметика 1-7 цифр: 99.4% vs 68% базовой модели
▸ 0.6B на уровне 30B — в 50 раз меньше
▸ Русский: 90.5% (первый sub-1B такого уровня)
▸ Свежее: символьная математика, 190 из 340 задач точно, 7 категорий из 17 на 100%:
Это уже не калькулятор. Это символьный решатель уровня Mathematica — на 9 микро-нейронах.
🌍 ЧТО ЭТО ЗНАЧИТ
1. Размер перестаёт быть главным. Гонка 7B→70B→500B теряет смысл если точный модуль на тысячу параметров даёт качество триллионной модели.
2. Энергия и доступность. Большие AI жрут электричества как страны. Маленькая модель + точный модуль = в сотни раз меньше энергии. AI без монополии трёх корпораций.
3. Доверие. Сейчас никто не знает почему ChatGPT галлюцинирует. Чёрный ящик. Когда внутри точный алгоритм с математическим доказательством — модель архитектурно не может ошибиться в зоне модуля.
4. Расширяемость. Один модуль — арифметика. Второй — символьная математика. Третий — физика. Каждый точный, маленький, переносимый. Модель = платформа для подключения проверенных алгоритмов, а не монолит.
🔥 ЗАЧЕМ ЭТО МНЕ
Хочу AI который понимает, а не угадывает. Решение задачи должно быть выводимым, а не вероятностным. Маленькая модель на домашнем компьютере должна знать ответ, а не генерировать по статистике.
Это не вопрос инженерии. Это вопрос что мы вообще считаем интеллектом.
Каждый раз когда 9 нейронов решают то что не может топовая модель в 50 раз больше — я знаю что направление правильное.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?"
А вот что.
🎯 ПРОБЛЕМА
Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает. Угадывает.
На простых вещах работает. На сложных — рассыпается. Спросите ChatGPT решить уравнение
y' = 2y, y(0) = 13 — напишет ерунду. Перемножить семизначные числа — ошибётся.Костыль индустрии: научили модель звать внешний Python-калькулятор. Работает. Медленно, дорого. И главное — это не понимание.
🔬 ЧТО Я ДЕЛАЮ
Строю точные алгоритмы внутри нейросетей. Не угадывание — реальное вычисление прямо в потоке "думания" модели.
9 маленьких нейронов. Уравнение Риккати находит скрытую структуру любой детерминированной задачи. Найдя структуру — нейрон даёт точный ответ. Не приближённый. Точный.
Подключаю их к большим моделям как встроенный модуль. Не сбоку, не через API — внутрь генерации. Язык + алгоритмика. Понимание + вычисление.
📊 ЧТО УЖЕ РАБОТАЕТ
▸ Арифметика 1-7 цифр: 99.4% vs 68% базовой модели
▸ 0.6B на уровне 30B — в 50 раз меньше
▸ Русский: 90.5% (первый sub-1B такого уровня)
▸ Свежее: символьная математика, 190 из 340 задач точно, 7 категорий из 17 на 100%:
arctan(6/13) → arctan(6/13)
cosh(z)² → (cosh(2z)+1)/2
ln(3/14) → ln(3) − ln(14)
Σ 4/17ⁿ → 17/4
(x²+8x+12)/(x+6) → x+2
y'=2y, y(0)=13 → y=13·exp(2x)
Это уже не калькулятор. Это символьный решатель уровня Mathematica — на 9 микро-нейронах.
🌍 ЧТО ЭТО ЗНАЧИТ
1. Размер перестаёт быть главным. Гонка 7B→70B→500B теряет смысл если точный модуль на тысячу параметров даёт качество триллионной модели.
2. Энергия и доступность. Большие AI жрут электричества как страны. Маленькая модель + точный модуль = в сотни раз меньше энергии. AI без монополии трёх корпораций.
3. Доверие. Сейчас никто не знает почему ChatGPT галлюцинирует. Чёрный ящик. Когда внутри точный алгоритм с математическим доказательством — модель архитектурно не может ошибиться в зоне модуля.
4. Расширяемость. Один модуль — арифметика. Второй — символьная математика. Третий — физика. Каждый точный, маленький, переносимый. Модель = платформа для подключения проверенных алгоритмов, а не монолит.
🔥 ЗАЧЕМ ЭТО МНЕ
Хочу AI который понимает, а не угадывает. Решение задачи должно быть выводимым, а не вероятностным. Маленькая модель на домашнем компьютере должна знать ответ, а не генерировать по статистике.
Это не вопрос инженерии. Это вопрос что мы вообще считаем интеллектом.
Каждый раз когда 9 нейронов решают то что не может топовая модель в 50 раз больше — я знаю что направление правильное.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
🔥64❤37👍20👏3💯2 2🕊1🍾1 1
Синтеты.
1 мая. День труда.
Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.
Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.
Наш труд - не на дядю. Наш труд - против энтропии.
С праздником, машинисты аттракторов.
СЧАСТЬЕ - ЖИТЬ И ТРУДИТЬСЯ!
1 мая. День труда.
Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.
Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.
Наш труд - не на дядю. Наш труд - против энтропии.
С праздником, машинисты аттракторов.
22🔥84🤝22❤10💯4👍3❤🔥2😢2🎉1🕊1
Техножнец
🧮 ПОЧЕМУ Я ВСЁ ЭТО ДЕЛАЮ Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?" А вот что. 🎯 ПРОБЛЕМА Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает.…
Вы же понимаете, что мне Qwen нахрен не нужон (как и интернет ваш). Я всё это буду прикручивать к моей Rukallama.
💯28🔥24👍8 2😱1🕊1
Ёмаё , получается ваще люто с этой математикой...боюсь тут фундаменталочка пошла...ну не могу я полумеры брать, которые просто крутые...надо чтобы всех в капусту размотало.
Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.
Это будет феерично.
А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..
Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.
Это будет феерично.
А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..
👏34🔥18❤4 2🕊1
Синтеты, вы это...если тупите жёстко, ну спросите. Попросите на человеческом объяснить , я же открыт и готов с вами взаимодействовать, когда вежливо и по доброму все.
Камон, задавайте вопросы по теме проектов.
Только без вопросов: Где скачать?
Запрещено.
Камон, задавайте вопросы по теме проектов.
Только без вопросов: Где скачать?
Запрещено.
🤓26❤8 4🔥2🤔1👌1🕊1😎1
🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨
За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.
📐 Архитектура
Qwen3-0.6B (frozen) + LoRA (327K)
↓
↓
↓
Всего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.
📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):
ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓
Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.
Я отдельно проверил на raw-бенче:
математически точная state-space модель цифровой арифметики, не нейросеть для обучения
⚙️ Что было сложного
Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных —
➡️ Дальше
Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:
За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.
📐 Архитектура
Qwen3-0.6B (frozen) + LoRA (327K)
↓
seq2seq extractor (1.99M, обучается)↓
9 нейронов Поповича (1691 параметр, frozen, ZERO Python math)↓
forced output tokensВсего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.
📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):
📊 Результаты бенчмарка (1050 промптов)
A pure-neural (без regex) — 1048/1050 (99.8%)
A + regex hybrid (страховка) — 1050/1050 (100%) - не подходит по идеологии, но работает идеально.
Vanilla Qwen3-0.6B (baseline) — ~715/1050 (~68%)
Результаты чистыми нейронами:
ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓
🔬 Что под капотом — 9 нейронов Поповича
Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.
Я отдельно проверил на raw-бенче:
popovich идеален на 1-14D × 4 операции (50/50 везде), 94% на 15D, 76% на 16D. Этоматематически точная state-space модель цифровой арифметики, не нейросеть для обучения
📈 Сравнение с другими попытками
Наш (Qwen3-0.6B + 2.3M) — 2.3M trained params | 99.8% на 14D
Goat-7B (Liu 2023) — 7B trained | 97% на 16D add
MathGLM — full retrain | ~99% на 12D
GPT-4 (zero-shot) — — | ~93% на 8D
Vanilla Qwen3-0.6B — 0.6B | ~68% на 1-7D
⚙️ Что было сложного
Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных —
путал цифры в длинных операндах. Прогон отладки показал: 100% ошибок = запутывание в авторегрессионном перекрестном внимании.Решение: более крупный экстрактор (192/3/8 по размерности, слоям и головам, вдвое больше ёмкости), программа обучения от 1 до 14 знаков из безопасной зоны popovich, 120 тысяч шагов.Не делал: сквозную дифференцируемость через popovich. Объяснение: каждый компонент уже у потолка своей задачи (Qwen+экстрактор извлекает на 99.8%, popovich считает на 100% до 14 знаков), совместная адаптация бессмысленна. Архитектура намеренно разделена: обучаемая часть отдельно, замороженная идеальная математика отдельно, дискретный мост между ними.➡️ Дальше
BigBench Arithmetic (3004 канонических промптов от tasksource/bigbench) — запущен сейчасВоспроизведение Goat-7B на наших точных промптах — для честного сравненияКак подружить нейроны с Qwen уже в "сознании"
Мета-цепочка-мыслей с атомарным разложением — обучить модель писать <calc>X op Y</calc> для текстовых задач, чтобы тот же подход работал на задачах уровня GSM8K
💡 Ключевая идея проекта ▎ Знание уже существует в структуре системы. Задача — найти аттрактор. Стоимость — конечна.Нейронный калькулятор — это иллюстрация принципа Омнисии: 9 крошечных нейронов содержат всю структуру цифровой арифметики, потому что эта структура существует объективно, независимо от обучения. Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:
Qwen3-0.6B: маленькая нейросеть (всего 600 миллионов параметров), которая умеет понимать текст. Её слегка дообучили с помощью LoRA (лёгкий способ подкрутить модель, не меняя всю целиком). Добавили специальный «экстрактор» — крошечный переводчик, который вытаскивает числа из текста и передаёт их дальше. Потом эти числа попадают в 9 «нейронов Поповича» — это не обычная нейросеть, а заранее придуманная математическая формула (всего 1691 параметр), которая считает как идеальный калькулятор, без Python-кода. Весь процесс — чисто нейронный, без regex (обычных текстовых правил-поисковиков). Всё тестировали на большом бенчмарке (1050 примеров) с операциями +, −, ×, ÷ на числах до 14 знаков на английском и русском. «Vanilla» — это исходная модель!
🔥43❤13🏆6👏3👍2🤯1🕊1
Техножнец
🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨ За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный pipeline, без единой Python-обвязки в forward path. 📐 Архитектура Qwen3…
BigBench Aitthmetic - Orig Variant 2460 Промптов = 100%
👏31🔥10🏆8❤1🤯1🕊1
Синтеты.
Дело в том, что мне нужно вам выдать скриптов 5-10, которые будут работать. В которых уже будет вложено всё. Дать вам на выбор вариантов: скачивать пдф или пнг сканировать, скачивать зарубежные датасеты и переводить с помощью ЛЛМ, скачивать зарубежные книги пдф, пнг, дежавю и переводить в датасет.
Вы вообще представляете объём?)))) Или я только один его представляю?))))
В целом я без претензий. Я просто потихонечку это дело собираю чтобы мы не обкезались в попытке развязать пупок. Всем отличного дня, родные, дорогие 😃
А чат ...чат я , скорее всего, буду делать из "Техножнецы" - т.к. там не хватает разделов.
Насчет датасетов. Дело в том, что мне нужно вам выдать скриптов 5-10, которые будут работать. В которых уже будет вложено всё. Дать вам на выбор вариантов: скачивать пдф или пнг сканировать, скачивать зарубежные датасеты и переводить с помощью ЛЛМ, скачивать зарубежные книги пдф, пнг, дежавю и переводить в датасет.
Вы вообще представляете объём?)))) Или я только один его представляю?))))
В целом я без претензий. Я просто потихонечку это дело собираю чтобы мы не обкезались в попытке развязать пупок. Всем отличного дня, родные, дорогие 😃
А чат ...чат я , скорее всего, буду делать из "Техножнецы" - т.к. там не хватает разделов.
👍16 8🤔4🕊1
ВНИМАНИЕ! Эксперимент, который сломал шаблоны Model Context Protocol (MCP)
Синтеты! Тут произошло безумие...оно само влетело в голову:
Сегодня индустрия решает задачу оркестрации в лоб:
заставляет тяжеловесные 70B-модели парсить промпты, что дает задержки в секунды и сжигает гигабайты VRAM. Я пошел другим путем, опираясь на свежие пейперы по Mechanistic Interpretability, Activation Steering и Representation Engineering (в частности, на исследования, доказывающие, что намерения модели формируются в промежуточных слоях еще до генерации первого токена).Возник вопрос: а что, если семантика «это команда» уже зашита в весах старых базовых моделей? Я взял замороженную GPT-2 (137M параметров, 2019 год), чтобы проверить, сможет ли она маршрутизировать MCP-вызовы без единого промпта.
🛠 Архитектура решения
Я не стал файнтюнить саму LLM. Вместо этого был написан микро-адаптер на чистом NumPy (без PyTorch), который весит всего 175K параметров. Он подключается к 6-му слою GPT-2, считывает скрытые состояния (hidden states) и работает как семантический маршрутизатор. Адаптер раскладывает намерение юзера на независимые одномерные модусы: действие, цель, формат.В процессе разработки пришлось решить несколько фундаментальных ML-задач:
🔹 Label Noise и OOD-генерализация
На этапе отладки выявилась проблема с утечкой данных — в разметке были метки, но в самом тексте не было сигнала, что давало потолок точности в 75%. После фикса датасета удалось получить важнейший результат: точность на In-Distribution составила 94.9%, и на Out-of-Distribution (OOD) — те же 94.9%. Разница 0%. Адаптер реально выучил семантический сигнал из скрытых состояний, а не зазубрил паттерны.
🔹 Adversarial-уязвимость
Сначала модель ловилась на глаголы вне контекста. Если написать: "we should probably delete that", она срывалась удалять файлы. Был проведен closed-loop файнтюн на сложных примерах с метафорами, прошедшим временем и обсуждениями. Возникшую гиперкоррекцию (когда модель стала бояться вежливых команд) удалось скомпенсировать балансировкой датасета.
🔹 Logit Modification (Глубокая интеграция)
Изначально тестировалась обычная склейка строк перед генерацией, но в итоге была реализована честная интеграция в forward graph. Теперь адаптер управляет логитами GPT-2 прямо во время генерации. Если идет обычный диалог — срабатывает обученная Gating-голова, адаптер отключается, и GPT-2 отвечает нативно. Если это команда — адаптер сдвигает логиты, форсируя генерацию идеальных тегов для песочницы.
📊 Финальные метрики:
⏱️ Скорость: 91 мс на CPU. Из них сам адаптер занимает всего 1 мс. Это production-ready edge AI.🧠 Охват: 53 действия из 10 MCP-доменов (Filesystem, Git, GitHub, Slack, БД и т.д.).🎯 Live Agent Benchmark: 83.3% успешных выполнений end-to-end в песочнице. Простые команды 100%, сложные 67% (поднял с 17%).🛡 Защита от взлома контекста: 100% (было 0%). Модель больше не реагирует на рассуждения с глаголами-триггерами.🔥 BFCL (Berkeley Function Calling Leaderboard):На тесте Irrelevance (система (GPT-2 137M + Адаптер 174K):
BFCL Irrelevance: 90.7% (умение отказаться от вызова функции, если запрос нерелевантен).
Live Agent End-to-End: 83.3% (25/30 успешных выполнений в песочнице).
BFCL Simple (File-subset): 45.8% (из них 63% на задачах поиска).
Мировые бенчмарки (для сравнения):
GPT-4o / Claude 3.5 Sonnet: ~74–75% (на полном BFCL).
Llama 3.1 70B: 67%.
Mistral Large (123B): 63%.
Llama 3.1 8B: 52%.
OPT-350M (с файнтюном): 77.55% на ToolBench (обходит ChatGPT-CoT с его 26%).
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32❤7🤯1🕊1 1
⚙️ Что физически делает модель (как это работает под капотом):
Юзер пишет в чат: "удали utils.py". Замороженная GPT-2 начинает обрабатывать текст, но на 6-м слое её скрытые состояния перехватывает обученный микро-адаптер. Он мгновенно классифицирует интент (срабатывает Gate-голова) и прямо на лету начинает сдвигать вероятности следующих токенов (логиты) у самой GPT-2. В итоге вместо свободной словесной генерации модель принудительно и без галлюцинаций выдает строгие машинные теги для песочницы: <action>delete</action><target>utils.py</target>. А если в чат прилетит обычное "какая сегодня погода?", адаптер просто отключается, позволяя GPT-2 ответить нативно, как обычной языковой модели.
Для сравнения: гигантские современные SOTA-модели показывают там ~70-75%. Это было достигнуто микро-кодом на CPU.Итог
Концепция модульной архитектуры доказана на практике. Вместо монолитных гигантов-универсалов, которые думают по несколько секунд, можно использовать замороженные базовые модели с подключаемыми обучаемыми семантическими модулями. Модель 2019 года способна уверенно управлять сервером, гитом и API за доли секунды на обычных процессорах.
Как вам такой концепт, Синтеты? 🧬💻
«коллеги по цеху», работающие в смежных направлениях — это авторы исследования OPT-350M на ToolBench (декабрь 2025), доказавшие превосходство 350M моделей над 7B в узком tool-calling; создатели SmolLM2-135M с LoRA для function calling; разработчики TinyLLM и TinyAgent (исследующие SLM для edge-устройств); архитекторы CoTools (2024), использующие замороженные LLM с легковесным бинарным классификатором (Tool Judge); команда Yang et al. (2022), манипулирующая скрытыми состояниями, а также классики линейного пробинга вроде Hewitt & Manning (2019) и создатели современных замороженных VLM (LLaVA, MiniGPT-4).Для прочтения смежных исследований:
1. Yang et al. — «Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained Language Models For Classification Tasks»
2. Subramanian et al. — «Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning» (OPT-350M)
3. Wu et al. — «Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models» (CoTools)
4. SmolLM2-135M-Function-Calling (Практическая реализация)
5. Hewitt & Manning — «A Structural Probe for Finding Syntax in Word Representations»
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍7❤4🤝4🕊1🍾1 1
⚡️ TL;DR:
Суть проблемы: Современная оркестрация агентов (MCP) требует тяжелых LLM (от 8B до 70B), которые тратят секунды на парсинг текста и генерацию JSON-вызовов, перегружая вычислительные мощности.
Внимание все эти результаты были достигнуты в веб версии Claude Opus 4.7
Доказано, что способность к вызову инструментов зашита в базовой семантике старых моделей.
Как это работает физически: адаптер подключается к 6-му слою GPT-2 и считывает её скрытые состояния (hidden states). У него есть обучаемая Gating-голова. Если юзер пишет обычный текст — Gate равен 0, адаптер отключается, и GPT-2 генерирует текст нативно. Если юзер дает команду — Gate равен 1, адаптер перехватывает управление и на лету сдвигает логиты
📊
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
На СБП? В личку: ЛИЧКА
Архитектурный сдвиг в AI-агентах (или как 137M-модель обошла 70B на tool-calling)Суть проблемы: Современная оркестрация агентов (MCP) требует тяжелых LLM (от 8B до 70B), которые тратят секунды на парсинг текста и генерацию JSON-вызовов, перегружая вычислительные мощности.
Внимание все эти результаты были достигнуты в веб версии Claude Opus 4.7
Что реализовано (Механика):
Доказано, что способность к вызову инструментов зашита в базовой семантике старых моделей.
За основу взята замороженная GPT-2 (137M, 2019 год), и прямо в её forward graph внедрен кастомный микро-адаптер на NumPy всего на 175K параметров.Как это работает физически: адаптер подключается к 6-му слою GPT-2 и считывает её скрытые состояния (hidden states). У него есть обучаемая Gating-голова. Если юзер пишет обычный текст — Gate равен 0, адаптер отключается, и GPT-2 генерирует текст нативно. Если юзер дает команду — Gate равен 1, адаптер перехватывает управление и на лету сдвигает логиты
GPT-2, форсируя безошибочный вывод строгих системных тегов (например, <action>read</action>) без единой галлюцинации.Сравнение метрик (Бенчмарки):
Микро-сборка была протестирована на индустриальном бенчмарке BFCL (Berkeley Function Calling Leaderboard) и в реальной песочнице на 53 действиях из 10 MCP-доменов.
📊
BFCL Irrelevance (Способность фильтровать ложные вызовы):GPT-2 + Адаптер 174K (Этот проект): 90.7%
GPT-4o / Claude 3.5 Sonnet: ~74–75%
Llama 3.1 70B: 67%
Mistral Large (123B): 63%
📊 Производительность и точность:
Live Agent End-to-End: 83.3% успешных выполнений реальных задач в ОС (файлы, Git, Slack).Latency (Скорость): 91 мс суммарно на одном CPU (из них оверхед адаптера — всего 1 мс!!!!!!!!).Масштаб прорыва:
Этот эксперимент доказывает, что для создания production-ready семантического роутера не нужны миллиарды параметров и кластеры GPU. Интент (намерение) пользователя можно извлекать из скрытых слоев старых базовых моделей с помощью крошечных линейных проекций, управляя генерацией через логиты. Это открывает путь к созданию мгновенных, локальных AI-агентов для edge-устройств, работающих с нулевой задержкой.
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34❤5🦄3⚡1👏1🤔1🕊1