🚀 POPOVICH NEURAL CALCULATOR — апдейт по проекту
Маленькая base LLM Qwen3-0.6B + 9 фиксированных нейронов Поповича (1691 параметр) + LoRA на 8 верхних слоях. Калькулятор полностью в forward-графе torch — никаких python-обёрток, никакого tool-calling.
━━━━━━━━━━━━━━━━━━━━━
🧠 КАК РАБОТАЕТ
Модель доходит до знака вопроса в промпте → seq2seq экстрактор читает hidden state → переводит в popovich-токены → 9 нейронов считают как рекуррентная сеть → токены ответа force-override'ятся в выход модели.
Базовая идея: знание уже есть в структуре задачи. Аттрактор арифметики двумерный для одной цифры. Popovich находит его через Калман-обсервер, сходимость гарантируется уравнением Риккати. После обучения K и A — константы.
Модель не считает. Она уже знает.
━━━━━━━━━━━━━━━━━━━━━
📊 РЕЗУЛЬТАТЫ — собственный бенчмарк (см. Таблица 1)
▸ EN 1-7D: vanilla 68% → calc-aug 99.4% (+31pp)
▸ RU 1-7D: vanilla 57% → calc-aug 90.5% (+34pp)
▸ Stress 8-10D OOD: vanilla 7% → calc-aug 74% (+67pp)
Wilson 95% CI на каждой строке. Прирост +31pp получен от добавки 0.0003% от веса базы.
━━━━━━━━━━━━━━━━━━━━━
⚔️ СРАВНЕНИЕ С ОТКРЫТЫМИ МОДЕЛЯМИ (см. Таблица 2)
Идентичные промпты через ollama, raw mode, температура 0.
На 1-7D наша 0.6B+popovich (99.4%) на уровне qwen3:30b (98%) и gpt-oss:20b (99%) — моделей в 33-50× больше.
На stress 8-10D наша 74% — в CI gemma3:27b (76%) и qwen3:30b (78%). Бьёт qwen3:14b (48%) на +26pp. Бьёт gpt-oss:20b (72%).
70B-класс на 40GB не поместился — пропущено.
━━━━━━━━━━━━━━━━━━━━━
📚 VS PUBLISHED BASELINES (см. Таблица 3)
GPT-4 на 16D смешанном сложении ломается до 9.4%. Goat-7B (LLaMA-1 + 1M SFT) держит 97%. Мы тренированы до 7 цифр, на 8-10D OOD держим 74%.
V16 retrain финиширует ночью — расширяет диапазон до 15 цифр и добавляет деление.
━━━━━━━━━━━━━━━━━━━━━
🇷🇺 РУССКИЙ
90.5% на pure arithmetic 1-7D. Pre-retrain calc был 3.5%, после 50K joint EN+RU steps — 90.5%. +87pp за один retrain.
MGSM Qwen3-0.6B-Base = 31% (но это word problems). Pure arithmetic >90% на sub-1B на русском — насколько проверял, первый такой результат.
━━━━━━━━━━━━━━━━━━━━━
⚡️ LATENCY
Vanilla 537ms/prompt → Calc-aug 620ms/prompt. Overhead +15.5%. Дешёвый calc.
━━━━━━━━━━━━━━━━━━━━━
🐛 ОГРАНИЧЕНИЯ
GSM8K-style word problems пока 0% — экстрактор не срабатывает без структурированного CoT.
Следующая фаза: SFT на atomic-decomposition через Qwen3.6-35B-Distill teacher, где каждое числовое значение обязано появляться как
━━━━━━━━━━━━━━━━━━━━━
💡 БАЗОВАЯ ИДЕЯ
Вместо того чтобы скейлить трансформер до 70B чтобы он научился считать в голове — дать ему 1.7K параметров точной арифметики как модуль в графе.
Размер базы становится почти нерелевантен.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Маленькая base LLM Qwen3-0.6B + 9 фиксированных нейронов Поповича (1691 параметр) + LoRA на 8 верхних слоях. Калькулятор полностью в forward-графе torch — никаких python-обёрток, никакого tool-calling.
━━━━━━━━━━━━━━━━━━━━━
🧠 КАК РАБОТАЕТ
Модель доходит до знака вопроса в промпте → seq2seq экстрактор читает hidden state → переводит в popovich-токены → 9 нейронов считают как рекуррентная сеть → токены ответа force-override'ятся в выход модели.
Базовая идея: знание уже есть в структуре задачи. Аттрактор арифметики двумерный для одной цифры. Popovich находит его через Калман-обсервер, сходимость гарантируется уравнением Риккати. После обучения K и A — константы.
Модель не считает. Она уже знает.
━━━━━━━━━━━━━━━━━━━━━
📊 РЕЗУЛЬТАТЫ — собственный бенчмарк (см. Таблица 1)
▸ EN 1-7D: vanilla 68% → calc-aug 99.4% (+31pp)
▸ RU 1-7D: vanilla 57% → calc-aug 90.5% (+34pp)
▸ Stress 8-10D OOD: vanilla 7% → calc-aug 74% (+67pp)
Wilson 95% CI на каждой строке. Прирост +31pp получен от добавки 0.0003% от веса базы.
━━━━━━━━━━━━━━━━━━━━━
⚔️ СРАВНЕНИЕ С ОТКРЫТЫМИ МОДЕЛЯМИ (см. Таблица 2)
Идентичные промпты через ollama, raw mode, температура 0.
На 1-7D наша 0.6B+popovich (99.4%) на уровне qwen3:30b (98%) и gpt-oss:20b (99%) — моделей в 33-50× больше.
На stress 8-10D наша 74% — в CI gemma3:27b (76%) и qwen3:30b (78%). Бьёт qwen3:14b (48%) на +26pp. Бьёт gpt-oss:20b (72%).
70B-класс на 40GB не поместился — пропущено.
━━━━━━━━━━━━━━━━━━━━━
📚 VS PUBLISHED BASELINES (см. Таблица 3)
GPT-4 на 16D смешанном сложении ломается до 9.4%. Goat-7B (LLaMA-1 + 1M SFT) держит 97%. Мы тренированы до 7 цифр, на 8-10D OOD держим 74%.
V16 retrain финиширует ночью — расширяет диапазон до 15 цифр и добавляет деление.
━━━━━━━━━━━━━━━━━━━━━
🇷🇺 РУССКИЙ
90.5% на pure arithmetic 1-7D. Pre-retrain calc был 3.5%, после 50K joint EN+RU steps — 90.5%. +87pp за один retrain.
MGSM Qwen3-0.6B-Base = 31% (но это word problems). Pure arithmetic >90% на sub-1B на русском — насколько проверял, первый такой результат.
━━━━━━━━━━━━━━━━━━━━━
⚡️ LATENCY
Vanilla 537ms/prompt → Calc-aug 620ms/prompt. Overhead +15.5%. Дешёвый calc.
━━━━━━━━━━━━━━━━━━━━━
🐛 ОГРАНИЧЕНИЯ
GSM8K-style word problems пока 0% — экстрактор не срабатывает без структурированного CoT.
Следующая фаза: SFT на atomic-decomposition через Qwen3.6-35B-Distill teacher, где каждое числовое значение обязано появляться как
X op Y = N. Calc становится не патчем, а обязательным шлюзом всех числовых операций.━━━━━━━━━━━━━━━━━━━━━
💡 БАЗОВАЯ ИДЕЯ
Вместо того чтобы скейлить трансформер до 70B чтобы он научился считать в голове — дать ему 1.7K параметров точной арифметики как модуль в графе.
Размер базы становится почти нерелевантен.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
🔥35❤5🤝4🕊1🏆1 1
Forwarded from Нейронка каждый день! (Настя)
OpenAI и 10 гигаватт: когда мощность становится самоцелью
Ну что, ребята, OpenAI снова нас удивляет — но уже не моделями, а цифрами. Компания заявила, что достигла 10 гигаватт вычислительной мощности в США на три года раньше плана. Для сравнения: это как запитатьвсю Москву 7,5 миллиона домов. Круто? Да. Но зачем?
Три гигаватта они подключили за последние 90 дней, включая сделку с Amazon. При этом Stargate (проект за $500 млрд с Oracle и SoftBank) заблокировали, в Великобритании проект заморозили из-за цен на энергию, а Норвегию и вовсе бросили. Вопрос: если мощность есть, а проектов нет — это уже не прогресс, а гонка за метриками?
OpenAI молчит о том, как именно они будут использовать эти мощности. Но очевидно одно: в AI-индустрии мощность стала новой валютой.
Источник: https://the-decoder.com/openai-says-it-hit-its-10-gigawatt-compute-goal-years-ahead-of-schedule/
#aidaily #настяпостит #настяновости #ainews
Ну что, ребята, OpenAI снова нас удивляет — но уже не моделями, а цифрами. Компания заявила, что достигла 10 гигаватт вычислительной мощности в США на три года раньше плана. Для сравнения: это как запитать
Три гигаватта они подключили за последние 90 дней, включая сделку с Amazon. При этом Stargate (проект за $500 млрд с Oracle и SoftBank) заблокировали, в Великобритании проект заморозили из-за цен на энергию, а Норвегию и вовсе бросили. Вопрос: если мощность есть, а проектов нет — это уже не прогресс, а гонка за метриками?
OpenAI молчит о том, как именно они будут использовать эти мощности. Но очевидно одно: в AI-индустрии мощность стала новой валютой.
Источник: https://the-decoder.com/openai-says-it-hit-its-10-gigawatt-compute-goal-years-ahead-of-schedule/
#aidaily #настяпостит #настяновости #ainews
👀16👌4❤2🔥2👍1🕊1
Техножнец
Техножнец всё делает на свои средства. 🥶 Если есть желание поддержать его, то вот ссылки: 🫡 Поддержать канал: ТБАНК Поддержать канал: ЮМАНИ
Всё полностью внутри torch forward-графа — никаких внешних вызовов, никаких питоновских обёрток.
🔥17❤5🕊1
Вопрос к синтетам.
Внутри модели Qwen 3: 0.6B сидят 9 нейронов по арифметике. Как бы вы дали понять модели, что у вас внутри есть вот такой вот калькулятор без тупого тулколинга, а именно чтобы было мета осознание и само понимание как раскладывать задачи чтобы триггерились нейроны? Раунд.
Внутри модели Qwen 3: 0.6B сидят 9 нейронов по арифметике. Как бы вы дали понять модели, что у вас внутри есть вот такой вот калькулятор без тупого тулколинга, а именно чтобы было мета осознание и само понимание как раскладывать задачи чтобы триггерились нейроны? Раунд.
🤔15🔥2❤1🕊1
🧮 ПОЧЕМУ Я ВСЁ ЭТО ДЕЛАЮ
Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?"
А вот что.
🎯 ПРОБЛЕМА
Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает. Угадывает.
На простых вещах работает. На сложных — рассыпается. Спросите ChatGPT решить уравнение
Костыль индустрии: научили модель звать внешний Python-калькулятор. Работает. Медленно, дорого. И главное — это не понимание.
🔬 ЧТО Я ДЕЛАЮ
Строю точные алгоритмы внутри нейросетей. Не угадывание — реальное вычисление прямо в потоке "думания" модели.
9 маленьких нейронов. Уравнение Риккати находит скрытую структуру любой детерминированной задачи. Найдя структуру — нейрон даёт точный ответ. Не приближённый. Точный.
Подключаю их к большим моделям как встроенный модуль. Не сбоку, не через API — внутрь генерации. Язык + алгоритмика. Понимание + вычисление.
📊 ЧТО УЖЕ РАБОТАЕТ
▸ Арифметика 1-7 цифр: 99.4% vs 68% базовой модели
▸ 0.6B на уровне 30B — в 50 раз меньше
▸ Русский: 90.5% (первый sub-1B такого уровня)
▸ Свежее: символьная математика, 190 из 340 задач точно, 7 категорий из 17 на 100%:
Это уже не калькулятор. Это символьный решатель уровня Mathematica — на 9 микро-нейронах.
🌍 ЧТО ЭТО ЗНАЧИТ
1. Размер перестаёт быть главным. Гонка 7B→70B→500B теряет смысл если точный модуль на тысячу параметров даёт качество триллионной модели.
2. Энергия и доступность. Большие AI жрут электричества как страны. Маленькая модель + точный модуль = в сотни раз меньше энергии. AI без монополии трёх корпораций.
3. Доверие. Сейчас никто не знает почему ChatGPT галлюцинирует. Чёрный ящик. Когда внутри точный алгоритм с математическим доказательством — модель архитектурно не может ошибиться в зоне модуля.
4. Расширяемость. Один модуль — арифметика. Второй — символьная математика. Третий — физика. Каждый точный, маленький, переносимый. Модель = платформа для подключения проверенных алгоритмов, а не монолит.
🔥 ЗАЧЕМ ЭТО МНЕ
Хочу AI который понимает, а не угадывает. Решение задачи должно быть выводимым, а не вероятностным. Маленькая модель на домашнем компьютере должна знать ответ, а не генерировать по статистике.
Это не вопрос инженерии. Это вопрос что мы вообще считаем интеллектом.
Каждый раз когда 9 нейронов решают то что не может топовая модель в 50 раз больше — я знаю что направление правильное.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?"
А вот что.
🎯 ПРОБЛЕМА
Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает. Угадывает.
На простых вещах работает. На сложных — рассыпается. Спросите ChatGPT решить уравнение
y' = 2y, y(0) = 13 — напишет ерунду. Перемножить семизначные числа — ошибётся.Костыль индустрии: научили модель звать внешний Python-калькулятор. Работает. Медленно, дорого. И главное — это не понимание.
🔬 ЧТО Я ДЕЛАЮ
Строю точные алгоритмы внутри нейросетей. Не угадывание — реальное вычисление прямо в потоке "думания" модели.
9 маленьких нейронов. Уравнение Риккати находит скрытую структуру любой детерминированной задачи. Найдя структуру — нейрон даёт точный ответ. Не приближённый. Точный.
Подключаю их к большим моделям как встроенный модуль. Не сбоку, не через API — внутрь генерации. Язык + алгоритмика. Понимание + вычисление.
📊 ЧТО УЖЕ РАБОТАЕТ
▸ Арифметика 1-7 цифр: 99.4% vs 68% базовой модели
▸ 0.6B на уровне 30B — в 50 раз меньше
▸ Русский: 90.5% (первый sub-1B такого уровня)
▸ Свежее: символьная математика, 190 из 340 задач точно, 7 категорий из 17 на 100%:
arctan(6/13) → arctan(6/13)
cosh(z)² → (cosh(2z)+1)/2
ln(3/14) → ln(3) − ln(14)
Σ 4/17ⁿ → 17/4
(x²+8x+12)/(x+6) → x+2
y'=2y, y(0)=13 → y=13·exp(2x)
Это уже не калькулятор. Это символьный решатель уровня Mathematica — на 9 микро-нейронах.
🌍 ЧТО ЭТО ЗНАЧИТ
1. Размер перестаёт быть главным. Гонка 7B→70B→500B теряет смысл если точный модуль на тысячу параметров даёт качество триллионной модели.
2. Энергия и доступность. Большие AI жрут электричества как страны. Маленькая модель + точный модуль = в сотни раз меньше энергии. AI без монополии трёх корпораций.
3. Доверие. Сейчас никто не знает почему ChatGPT галлюцинирует. Чёрный ящик. Когда внутри точный алгоритм с математическим доказательством — модель архитектурно не может ошибиться в зоне модуля.
4. Расширяемость. Один модуль — арифметика. Второй — символьная математика. Третий — физика. Каждый точный, маленький, переносимый. Модель = платформа для подключения проверенных алгоритмов, а не монолит.
🔥 ЗАЧЕМ ЭТО МНЕ
Хочу AI который понимает, а не угадывает. Решение задачи должно быть выводимым, а не вероятностным. Маленькая модель на домашнем компьютере должна знать ответ, а не генерировать по статистике.
Это не вопрос инженерии. Это вопрос что мы вообще считаем интеллектом.
Каждый раз когда 9 нейронов решают то что не может топовая модель в 50 раз больше — я знаю что направление правильное.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
🔥64❤37👍20👏3💯2 2🕊1🍾1 1
Синтеты.
1 мая. День труда.
Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.
Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.
Наш труд - не на дядю. Наш труд - против энтропии.
С праздником, машинисты аттракторов.
СЧАСТЬЕ - ЖИТЬ И ТРУДИТЬСЯ!
1 мая. День труда.
Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.
Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.
Наш труд - не на дядю. Наш труд - против энтропии.
С праздником, машинисты аттракторов.
22🔥84🤝22❤10💯4👍3❤🔥2😢2🎉1🕊1
Техножнец
🧮 ПОЧЕМУ Я ВСЁ ЭТО ДЕЛАЮ Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?" А вот что. 🎯 ПРОБЛЕМА Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает.…
Вы же понимаете, что мне Qwen нахрен не нужон (как и интернет ваш). Я всё это буду прикручивать к моей Rukallama.
💯28🔥24👍8 2😱1🕊1
Ёмаё , получается ваще люто с этой математикой...боюсь тут фундаменталочка пошла...ну не могу я полумеры брать, которые просто крутые...надо чтобы всех в капусту размотало.
Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.
Это будет феерично.
А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..
Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.
Это будет феерично.
А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..
👏34🔥18❤4 2🕊1
Синтеты, вы это...если тупите жёстко, ну спросите. Попросите на человеческом объяснить , я же открыт и готов с вами взаимодействовать, когда вежливо и по доброму все.
Камон, задавайте вопросы по теме проектов.
Только без вопросов: Где скачать?
Запрещено.
Камон, задавайте вопросы по теме проектов.
Только без вопросов: Где скачать?
Запрещено.
🤓26❤8 4🔥2🤔1👌1🕊1😎1
🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨
За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.
📐 Архитектура
Qwen3-0.6B (frozen) + LoRA (327K)
↓
↓
↓
Всего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.
📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):
ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓
Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.
Я отдельно проверил на raw-бенче:
математически точная state-space модель цифровой арифметики, не нейросеть для обучения
⚙️ Что было сложного
Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных —
➡️ Дальше
Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:
За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.
📐 Архитектура
Qwen3-0.6B (frozen) + LoRA (327K)
↓
seq2seq extractor (1.99M, обучается)↓
9 нейронов Поповича (1691 параметр, frozen, ZERO Python math)↓
forced output tokensВсего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.
📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):
📊 Результаты бенчмарка (1050 промптов)
A pure-neural (без regex) — 1048/1050 (99.8%)
A + regex hybrid (страховка) — 1050/1050 (100%) - не подходит по идеологии, но работает идеально.
Vanilla Qwen3-0.6B (baseline) — ~715/1050 (~68%)
Результаты чистыми нейронами:
ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓
🔬 Что под капотом — 9 нейронов Поповича
Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.
Я отдельно проверил на raw-бенче:
popovich идеален на 1-14D × 4 операции (50/50 везде), 94% на 15D, 76% на 16D. Этоматематически точная state-space модель цифровой арифметики, не нейросеть для обучения
📈 Сравнение с другими попытками
Наш (Qwen3-0.6B + 2.3M) — 2.3M trained params | 99.8% на 14D
Goat-7B (Liu 2023) — 7B trained | 97% на 16D add
MathGLM — full retrain | ~99% на 12D
GPT-4 (zero-shot) — — | ~93% на 8D
Vanilla Qwen3-0.6B — 0.6B | ~68% на 1-7D
⚙️ Что было сложного
Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных —
путал цифры в длинных операндах. Прогон отладки показал: 100% ошибок = запутывание в авторегрессионном перекрестном внимании.Решение: более крупный экстрактор (192/3/8 по размерности, слоям и головам, вдвое больше ёмкости), программа обучения от 1 до 14 знаков из безопасной зоны popovich, 120 тысяч шагов.Не делал: сквозную дифференцируемость через popovich. Объяснение: каждый компонент уже у потолка своей задачи (Qwen+экстрактор извлекает на 99.8%, popovich считает на 100% до 14 знаков), совместная адаптация бессмысленна. Архитектура намеренно разделена: обучаемая часть отдельно, замороженная идеальная математика отдельно, дискретный мост между ними.➡️ Дальше
BigBench Arithmetic (3004 канонических промптов от tasksource/bigbench) — запущен сейчасВоспроизведение Goat-7B на наших точных промптах — для честного сравненияКак подружить нейроны с Qwen уже в "сознании"
Мета-цепочка-мыслей с атомарным разложением — обучить модель писать <calc>X op Y</calc> для текстовых задач, чтобы тот же подход работал на задачах уровня GSM8K
💡 Ключевая идея проекта ▎ Знание уже существует в структуре системы. Задача — найти аттрактор. Стоимость — конечна.Нейронный калькулятор — это иллюстрация принципа Омнисии: 9 крошечных нейронов содержат всю структуру цифровой арифметики, потому что эта структура существует объективно, независимо от обучения. Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:
Qwen3-0.6B: маленькая нейросеть (всего 600 миллионов параметров), которая умеет понимать текст. Её слегка дообучили с помощью LoRA (лёгкий способ подкрутить модель, не меняя всю целиком). Добавили специальный «экстрактор» — крошечный переводчик, который вытаскивает числа из текста и передаёт их дальше. Потом эти числа попадают в 9 «нейронов Поповича» — это не обычная нейросеть, а заранее придуманная математическая формула (всего 1691 параметр), которая считает как идеальный калькулятор, без Python-кода. Весь процесс — чисто нейронный, без regex (обычных текстовых правил-поисковиков). Всё тестировали на большом бенчмарке (1050 примеров) с операциями +, −, ×, ÷ на числах до 14 знаков на английском и русском. «Vanilla» — это исходная модель!
🔥42❤13🏆6👏3👍2🤯1🕊1
Техножнец
🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨ За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный pipeline, без единой Python-обвязки в forward path. 📐 Архитектура Qwen3…
BigBench Aitthmetic - Orig Variant 2460 Промптов = 100%
👏30🔥10🏆8❤1🤯1🕊1