Техножнец

🧮 СОЕДИНИЛ QWEN 3 (600M) LLM С НЕЙРОННЫМ КАЛЬКУЛЯТОРОМ. 67% → 99.5%.

Тонкая LoRA-надстройка поверх Qwen3-0.6B + нейронный калькулятор Поповича в forward-графе. Прирост точности на сложении: +32.5 процентных пункта.

━━━━━━━━━━━━━━━━━━━━━

📊 БЕНЧМАРК

200 задач сложения, операнды 1–7 знаков:

▸ Vanilla Qwen3-0.6B 134/200 (67.0%)
▸ Qwen + LoRA + Popovich calc 199/200 (99.5%)

━━━━━━━━━━━━━━━━━━━━━

🏗 АРХИТЕКТУРА
текст → Qwen3-0.6B + LoRA(слои 20-27)
→ hidden state с 24-го слоя
→ seq2seq decoder → (a, op, b)
→ 9 нейронов Поповича
→ точный ответ

Это deep integration: ответ калькулятора возвращается в forward-граф LLM, не через токены. Не tool-call, не внешний процесс, не stop-and-resume.

━━━━━━━━━━━━━━━━━━━━━

⚙️ ЦИФРЫ

▸ LoRA на верхних 8 слоях: 327K параметров
▸ Seq2seq экстрактор: 668K параметров
▸ Суммарно добавлено: ~1M (0.16% от базовой модели)
▸ Тренировка: 50K шагов, 63 минуты на одной GPU
▸ Joint training: LoRA и декодер обучались вместе

━━━━━━━━━━━━━━━━━━━━━

🎯 КЛЮЧЕВАЯ МЫСЛЬ

Калькулятор-нейроны (785/785, 99.9%) -идеальный вычислительный механизм. Узким местом было *считывание цифр* из hidden state Qwen.

Замороженный Qwen упирался в плато 53%. Разморозили только верх через LoRA - потолок взлетел до 99.5%.

━━━━━━━━━━━━━━━━━━━━━

🐛 ЕДИНСТВЕННЫЙ ПРОМАХ ИЗ 200

Экстрактор переставил цифры в 7-значном числе. Калькулятор посчитал правильно - на неправильном входе.

То есть: failure mode не в вычислении, а в парсинге. Это починимо отдельно. И Я ЭТИМ ЗАНЯТ!

━━━━━━━━━━━━━━━━━━━━━

Дальше расширенный бенчмарк с большей выборкой и текстовым baseline.

для тех кто шарящий: Бенчмарки из интернета тоже будут пропилены. выложу результаты как баг починю. 200 тестов, которые были тут бенчмарком это разные задачки вне текстовых условий. Вот где текстовые условия, там уже интересное пойдёт.

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ

👍47❤13🔥9👏3😱2🕊1🆒1

1.88K viewsedited 13:50

Техножнец

Доброе утро..

🔥23🤝15🕊2👌1👾1

1.85K views03:10

Техножнец

72 отжимания за 1 подход. 15 подтягов за 1 подход.
Скоро буду делать по 2. Щас вернусь в форму!

🔥43👍12🤔5❤‍🔥3👏3🦄2🕊1

1.86K views03:46

Техножнец

🧮 СОЕДИНИЛ QWEN 3 (600M) LLM С НЕЙРОННЫМ КАЛЬКУЛЯТОРОМ. 67% → 99.5%. Тонкая LoRA-надстройка поверх Qwen3-0.6B + нейронный калькулятор Поповича в forward-графе. Прирост точности на сложении: +32.5 процентных пункта. ━━━━━━━━━━━━━━━━━━━━━ 📊 БЕНЧМАРК 200…

вот это...вот это...ЭТО ТАК СЛОЖНО сука...

💯15🤔4🕊1👀1🤗11

1.82K views04:14

Техножнец

ох...новости лютые...буду щас показывать..

😱24👀123❤2🕊1

1.74K views09:30

Техножнец

Конечно...затянулось.

🔥11🕊1

1.67K views12:26

Техножнец

Пока жду результатов...тут Claude Design (новая фича от антропиков) подготовил мне ассет.

10👏6😱2🕊1

1.72K views12:26

Техножнец

Это для городских локаций чтобы город генерировался грамотно.

Также будут более крупные города, разнообразные деревеньки.

🔥40❤1🕊11

1.67K views12:52

Техножнец

Сегодня запостить новость не успею. Уже завтра 100%

🙏8😢5🕊1

1.6K views14:56

Техножнец

🚀 POPOVICH NEURAL CALCULATOR — апдейт по проекту

Маленькая base LLM Qwen3-0.6B + 9 фиксированных нейронов Поповича (1691 параметр) + LoRA на 8 верхних слоях. Калькулятор полностью в forward-графе torch — никаких python-обёрток, никакого tool-calling.

━━━━━━━━━━━━━━━━━━━━━

🧠 КАК РАБОТАЕТ

Модель доходит до знака вопроса в промпте → seq2seq экстрактор читает hidden state → переводит в popovich-токены → 9 нейронов считают как рекуррентная сеть → токены ответа force-override'ятся в выход модели.

Базовая идея: знание уже есть в структуре задачи. Аттрактор арифметики двумерный для одной цифры. Popovich находит его через Калман-обсервер, сходимость гарантируется уравнением Риккати. После обучения K и A — константы.

Модель не считает. Она уже знает.

━━━━━━━━━━━━━━━━━━━━━

📊 РЕЗУЛЬТАТЫ — собственный бенчмарк (см. Таблица 1)

▸ EN 1-7D: vanilla 68% → calc-aug 99.4% (+31pp)
▸ RU 1-7D: vanilla 57% → calc-aug 90.5% (+34pp)
▸ Stress 8-10D OOD: vanilla 7% → calc-aug 74% (+67pp)

Wilson 95% CI на каждой строке. Прирост +31pp получен от добавки 0.0003% от веса базы.

━━━━━━━━━━━━━━━━━━━━━

⚔️ СРАВНЕНИЕ С ОТКРЫТЫМИ МОДЕЛЯМИ (см. Таблица 2)

Идентичные промпты через ollama, raw mode, температура 0.

На 1-7D наша 0.6B+popovich (99.4%) на уровне qwen3:30b (98%) и gpt-oss:20b (99%) — моделей в 33-50× больше.

На stress 8-10D наша 74% — в CI gemma3:27b (76%) и qwen3:30b (78%). Бьёт qwen3:14b (48%) на +26pp. Бьёт gpt-oss:20b (72%).

70B-класс на 40GB не поместился — пропущено.

━━━━━━━━━━━━━━━━━━━━━

📚 VS PUBLISHED BASELINES (см. Таблица 3)

GPT-4 на 16D смешанном сложении ломается до 9.4%. Goat-7B (LLaMA-1 + 1M SFT) держит 97%. Мы тренированы до 7 цифр, на 8-10D OOD держим 74%.

V16 retrain финиширует ночью — расширяет диапазон до 15 цифр и добавляет деление.

━━━━━━━━━━━━━━━━━━━━━

🇷🇺 РУССКИЙ

90.5% на pure arithmetic 1-7D. Pre-retrain calc был 3.5%, после 50K joint EN+RU steps — 90.5%. +87pp за один retrain.

MGSM Qwen3-0.6B-Base = 31% (но это word problems). Pure arithmetic >90% на sub-1B на русском — насколько проверял, первый такой результат.

━━━━━━━━━━━━━━━━━━━━━

⚡️ LATENCY

Vanilla 537ms/prompt → Calc-aug 620ms/prompt. Overhead +15.5%. Дешёвый calc.

━━━━━━━━━━━━━━━━━━━━━

🐛 ОГРАНИЧЕНИЯ

GSM8K-style word problems пока 0% — экстрактор не срабатывает без структурированного CoT.

Следующая фаза: SFT на atomic-decomposition через Qwen3.6-35B-Distill teacher, где каждое числовое значение обязано появляться как X op Y = N. Calc становится не патчем, а обязательным шлюзом всех числовых операций.

━━━━━━━━━━━━━━━━━━━━━

💡 БАЗОВАЯ ИДЕЯ

Вместо того чтобы скейлить трансформер до 70B чтобы он научился считать в голове — дать ему 1.7K параметров точной арифметики как модуль в графе.

Размер базы становится почти нерелевантен.

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ

🔥35❤5🤝4🕊1🏆11

1.75K views15:12

Техножнец

Forwarded from Нейронка каждый день! (Настя)

OpenAI и 10 гигаватт: когда мощность становится самоцелью

Ну что, ребята, OpenAI снова нас удивляет — но уже не моделями, а цифрами. Компания заявила, что достигла 10 гигаватт вычислительной мощности в США на три года раньше плана. Для сравнения: это как запитать ~~всю Москву~~ 7,5 миллиона домов. Круто? Да. Но зачем?

Три гигаватта они подключили за последние 90 дней, включая сделку с Amazon. При этом Stargate (проект за $500 млрд с Oracle и SoftBank) заблокировали, в Великобритании проект заморозили из-за цен на энергию, а Норвегию и вовсе бросили. Вопрос: если мощность есть, а проектов нет — это уже не прогресс, а гонка за метриками?

OpenAI молчит о том, как именно они будут использовать эти мощности. Но очевидно одно: в AI-индустрии мощность стала новой валютой.

Источник: https://the-decoder.com/openai-says-it-hit-its-10-gigawatt-compute-goal-years-ahead-of-schedule/

#aidaily #настяпостит #настяновости #ainews

👀16👌4❤2🔥2👍1🕊1

1.66K views15:23

Техножнец

Техножнец pinned a photo

15:27

Техножнец

👏16🔥63🕊1🫡1

1.63K viewsedited 18:20

Техножнец

Техножнец всё делает на свои средства. 🥶 Если есть желание поддержать его, то вот ссылки: 🫡 Поддержать канал: ТБАНК Поддержать канал: ЮМАНИ

Всё полностью внутри torch forward-графа — никаких внешних вызовов, никаких питоновских обёрток.

🔥17❤5🕊1

1.68K views18:29

Техножнец

Вопрос к синтетам.

Внутри модели Qwen 3: 0.6B сидят 9 нейронов по арифметике. Как бы вы дали понять модели, что у вас внутри есть вот такой вот калькулятор без тупого тулколинга, а именно чтобы было мета осознание и само понимание как раскладывать задачи чтобы триггерились нейроны? Раунд.

🤔15🔥2❤1🕊1

1.67K viewsedited 18:39

About

Blog

Apps

Platform