Техножнец

🚀 POPOVICH NEURAL CALCULATOR — апдейт по проекту

Маленькая base LLM Qwen3-0.6B + 9 фиксированных нейронов Поповича (1691 параметр) + LoRA на 8 верхних слоях. Калькулятор полностью в forward-графе torch — никаких python-обёрток, никакого tool-calling.

━━━━━━━━━━━━━━━━━━━━━

🧠 КАК РАБОТАЕТ

Модель доходит до знака вопроса в промпте → seq2seq экстрактор читает hidden state → переводит в popovich-токены → 9 нейронов считают как рекуррентная сеть → токены ответа force-override'ятся в выход модели.

Базовая идея: знание уже есть в структуре задачи. Аттрактор арифметики двумерный для одной цифры. Popovich находит его через Калман-обсервер, сходимость гарантируется уравнением Риккати. После обучения K и A — константы.

Модель не считает. Она уже знает.

━━━━━━━━━━━━━━━━━━━━━

📊 РЕЗУЛЬТАТЫ — собственный бенчмарк (см. Таблица 1)

▸ EN 1-7D: vanilla 68% → calc-aug 99.4% (+31pp)
▸ RU 1-7D: vanilla 57% → calc-aug 90.5% (+34pp)
▸ Stress 8-10D OOD: vanilla 7% → calc-aug 74% (+67pp)

Wilson 95% CI на каждой строке. Прирост +31pp получен от добавки 0.0003% от веса базы.

━━━━━━━━━━━━━━━━━━━━━

⚔️ СРАВНЕНИЕ С ОТКРЫТЫМИ МОДЕЛЯМИ (см. Таблица 2)

Идентичные промпты через ollama, raw mode, температура 0.

На 1-7D наша 0.6B+popovich (99.4%) на уровне qwen3:30b (98%) и gpt-oss:20b (99%) — моделей в 33-50× больше.

На stress 8-10D наша 74% — в CI gemma3:27b (76%) и qwen3:30b (78%). Бьёт qwen3:14b (48%) на +26pp. Бьёт gpt-oss:20b (72%).

70B-класс на 40GB не поместился — пропущено.

━━━━━━━━━━━━━━━━━━━━━

📚 VS PUBLISHED BASELINES (см. Таблица 3)

GPT-4 на 16D смешанном сложении ломается до 9.4%. Goat-7B (LLaMA-1 + 1M SFT) держит 97%. Мы тренированы до 7 цифр, на 8-10D OOD держим 74%.

V16 retrain финиширует ночью — расширяет диапазон до 15 цифр и добавляет деление.

━━━━━━━━━━━━━━━━━━━━━

🇷🇺 РУССКИЙ

90.5% на pure arithmetic 1-7D. Pre-retrain calc был 3.5%, после 50K joint EN+RU steps — 90.5%. +87pp за один retrain.

MGSM Qwen3-0.6B-Base = 31% (но это word problems). Pure arithmetic >90% на sub-1B на русском — насколько проверял, первый такой результат.

━━━━━━━━━━━━━━━━━━━━━

⚡️ LATENCY

Vanilla 537ms/prompt → Calc-aug 620ms/prompt. Overhead +15.5%. Дешёвый calc.

━━━━━━━━━━━━━━━━━━━━━

🐛 ОГРАНИЧЕНИЯ

GSM8K-style word problems пока 0% — экстрактор не срабатывает без структурированного CoT.

Следующая фаза: SFT на atomic-decomposition через Qwen3.6-35B-Distill teacher, где каждое числовое значение обязано появляться как X op Y = N. Calc становится не патчем, а обязательным шлюзом всех числовых операций.

━━━━━━━━━━━━━━━━━━━━━

💡 БАЗОВАЯ ИДЕЯ

Вместо того чтобы скейлить трансформер до 70B чтобы он научился считать в голове — дать ему 1.7K параметров точной арифметики как модуль в графе.

Размер базы становится почти нерелевантен.

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ

🔥35❤5🤝4🕊1🏆11

1.76K views15:12