Пока жду результатов...тут Claude Design (новая фича от антропиков) подготовил мне ассет.
🚀 POPOVICH NEURAL CALCULATOR — апдейт по проекту
Маленькая base LLM Qwen3-0.6B + 9 фиксированных нейронов Поповича (1691 параметр) + LoRA на 8 верхних слоях. Калькулятор полностью в forward-графе torch — никаких python-обёрток, никакого tool-calling.
━━━━━━━━━━━━━━━━━━━━━
🧠 КАК РАБОТАЕТ
Модель доходит до знака вопроса в промпте → seq2seq экстрактор читает hidden state → переводит в popovich-токены → 9 нейронов считают как рекуррентная сеть → токены ответа force-override'ятся в выход модели.
Базовая идея: знание уже есть в структуре задачи. Аттрактор арифметики двумерный для одной цифры. Popovich находит его через Калман-обсервер, сходимость гарантируется уравнением Риккати. После обучения K и A — константы.
Модель не считает. Она уже знает.
━━━━━━━━━━━━━━━━━━━━━
📊 РЕЗУЛЬТАТЫ — собственный бенчмарк (см. Таблица 1)
▸ EN 1-7D: vanilla 68% → calc-aug 99.4% (+31pp)
▸ RU 1-7D: vanilla 57% → calc-aug 90.5% (+34pp)
▸ Stress 8-10D OOD: vanilla 7% → calc-aug 74% (+67pp)
Wilson 95% CI на каждой строке. Прирост +31pp получен от добавки 0.0003% от веса базы.
━━━━━━━━━━━━━━━━━━━━━
⚔️ СРАВНЕНИЕ С ОТКРЫТЫМИ МОДЕЛЯМИ (см. Таблица 2)
Идентичные промпты через ollama, raw mode, температура 0.
На 1-7D наша 0.6B+popovich (99.4%) на уровне qwen3:30b (98%) и gpt-oss:20b (99%) — моделей в 33-50× больше.
На stress 8-10D наша 74% — в CI gemma3:27b (76%) и qwen3:30b (78%). Бьёт qwen3:14b (48%) на +26pp. Бьёт gpt-oss:20b (72%).
70B-класс на 40GB не поместился — пропущено.
━━━━━━━━━━━━━━━━━━━━━
📚 VS PUBLISHED BASELINES (см. Таблица 3)
GPT-4 на 16D смешанном сложении ломается до 9.4%. Goat-7B (LLaMA-1 + 1M SFT) держит 97%. Мы тренированы до 7 цифр, на 8-10D OOD держим 74%.
V16 retrain финиширует ночью — расширяет диапазон до 15 цифр и добавляет деление.
━━━━━━━━━━━━━━━━━━━━━
🇷🇺 РУССКИЙ
90.5% на pure arithmetic 1-7D. Pre-retrain calc был 3.5%, после 50K joint EN+RU steps — 90.5%. +87pp за один retrain.
MGSM Qwen3-0.6B-Base = 31% (но это word problems). Pure arithmetic >90% на sub-1B на русском — насколько проверял, первый такой результат.
━━━━━━━━━━━━━━━━━━━━━
⚡️ LATENCY
Vanilla 537ms/prompt → Calc-aug 620ms/prompt. Overhead +15.5%. Дешёвый calc.
━━━━━━━━━━━━━━━━━━━━━
🐛 ОГРАНИЧЕНИЯ
GSM8K-style word problems пока 0% — экстрактор не срабатывает без структурированного CoT.
Следующая фаза: SFT на atomic-decomposition через Qwen3.6-35B-Distill teacher, где каждое числовое значение обязано появляться как
━━━━━━━━━━━━━━━━━━━━━
💡 БАЗОВАЯ ИДЕЯ
Вместо того чтобы скейлить трансформер до 70B чтобы он научился считать в голове — дать ему 1.7K параметров точной арифметики как модуль в графе.
Размер базы становится почти нерелевантен.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Маленькая base LLM Qwen3-0.6B + 9 фиксированных нейронов Поповича (1691 параметр) + LoRA на 8 верхних слоях. Калькулятор полностью в forward-графе torch — никаких python-обёрток, никакого tool-calling.
━━━━━━━━━━━━━━━━━━━━━
🧠 КАК РАБОТАЕТ
Модель доходит до знака вопроса в промпте → seq2seq экстрактор читает hidden state → переводит в popovich-токены → 9 нейронов считают как рекуррентная сеть → токены ответа force-override'ятся в выход модели.
Базовая идея: знание уже есть в структуре задачи. Аттрактор арифметики двумерный для одной цифры. Popovich находит его через Калман-обсервер, сходимость гарантируется уравнением Риккати. После обучения K и A — константы.
Модель не считает. Она уже знает.
━━━━━━━━━━━━━━━━━━━━━
📊 РЕЗУЛЬТАТЫ — собственный бенчмарк (см. Таблица 1)
▸ EN 1-7D: vanilla 68% → calc-aug 99.4% (+31pp)
▸ RU 1-7D: vanilla 57% → calc-aug 90.5% (+34pp)
▸ Stress 8-10D OOD: vanilla 7% → calc-aug 74% (+67pp)
Wilson 95% CI на каждой строке. Прирост +31pp получен от добавки 0.0003% от веса базы.
━━━━━━━━━━━━━━━━━━━━━
⚔️ СРАВНЕНИЕ С ОТКРЫТЫМИ МОДЕЛЯМИ (см. Таблица 2)
Идентичные промпты через ollama, raw mode, температура 0.
На 1-7D наша 0.6B+popovich (99.4%) на уровне qwen3:30b (98%) и gpt-oss:20b (99%) — моделей в 33-50× больше.
На stress 8-10D наша 74% — в CI gemma3:27b (76%) и qwen3:30b (78%). Бьёт qwen3:14b (48%) на +26pp. Бьёт gpt-oss:20b (72%).
70B-класс на 40GB не поместился — пропущено.
━━━━━━━━━━━━━━━━━━━━━
📚 VS PUBLISHED BASELINES (см. Таблица 3)
GPT-4 на 16D смешанном сложении ломается до 9.4%. Goat-7B (LLaMA-1 + 1M SFT) держит 97%. Мы тренированы до 7 цифр, на 8-10D OOD держим 74%.
V16 retrain финиширует ночью — расширяет диапазон до 15 цифр и добавляет деление.
━━━━━━━━━━━━━━━━━━━━━
🇷🇺 РУССКИЙ
90.5% на pure arithmetic 1-7D. Pre-retrain calc был 3.5%, после 50K joint EN+RU steps — 90.5%. +87pp за один retrain.
MGSM Qwen3-0.6B-Base = 31% (но это word problems). Pure arithmetic >90% на sub-1B на русском — насколько проверял, первый такой результат.
━━━━━━━━━━━━━━━━━━━━━
⚡️ LATENCY
Vanilla 537ms/prompt → Calc-aug 620ms/prompt. Overhead +15.5%. Дешёвый calc.
━━━━━━━━━━━━━━━━━━━━━
🐛 ОГРАНИЧЕНИЯ
GSM8K-style word problems пока 0% — экстрактор не срабатывает без структурированного CoT.
Следующая фаза: SFT на atomic-decomposition через Qwen3.6-35B-Distill teacher, где каждое числовое значение обязано появляться как
X op Y = N. Calc становится не патчем, а обязательным шлюзом всех числовых операций.━━━━━━━━━━━━━━━━━━━━━
💡 БАЗОВАЯ ИДЕЯ
Вместо того чтобы скейлить трансформер до 70B чтобы он научился считать в голове — дать ему 1.7K параметров точной арифметики как модуль в графе.
Размер базы становится почти нерелевантен.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
🔥35❤5🤝4🕊1🏆1 1
Forwarded from Нейронка каждый день! (Настя)
OpenAI и 10 гигаватт: когда мощность становится самоцелью
Ну что, ребята, OpenAI снова нас удивляет — но уже не моделями, а цифрами. Компания заявила, что достигла 10 гигаватт вычислительной мощности в США на три года раньше плана. Для сравнения: это как запитатьвсю Москву 7,5 миллиона домов. Круто? Да. Но зачем?
Три гигаватта они подключили за последние 90 дней, включая сделку с Amazon. При этом Stargate (проект за $500 млрд с Oracle и SoftBank) заблокировали, в Великобритании проект заморозили из-за цен на энергию, а Норвегию и вовсе бросили. Вопрос: если мощность есть, а проектов нет — это уже не прогресс, а гонка за метриками?
OpenAI молчит о том, как именно они будут использовать эти мощности. Но очевидно одно: в AI-индустрии мощность стала новой валютой.
Источник: https://the-decoder.com/openai-says-it-hit-its-10-gigawatt-compute-goal-years-ahead-of-schedule/
#aidaily #настяпостит #настяновости #ainews
Ну что, ребята, OpenAI снова нас удивляет — но уже не моделями, а цифрами. Компания заявила, что достигла 10 гигаватт вычислительной мощности в США на три года раньше плана. Для сравнения: это как запитать
Три гигаватта они подключили за последние 90 дней, включая сделку с Amazon. При этом Stargate (проект за $500 млрд с Oracle и SoftBank) заблокировали, в Великобритании проект заморозили из-за цен на энергию, а Норвегию и вовсе бросили. Вопрос: если мощность есть, а проектов нет — это уже не прогресс, а гонка за метриками?
OpenAI молчит о том, как именно они будут использовать эти мощности. Но очевидно одно: в AI-индустрии мощность стала новой валютой.
Источник: https://the-decoder.com/openai-says-it-hit-its-10-gigawatt-compute-goal-years-ahead-of-schedule/
#aidaily #настяпостит #настяновости #ainews
👀16👌4❤2🔥2👍1🕊1
Техножнец
Техножнец всё делает на свои средства. 🥶 Если есть желание поддержать его, то вот ссылки: 🫡 Поддержать канал: ТБАНК Поддержать канал: ЮМАНИ
Всё полностью внутри torch forward-графа — никаких внешних вызовов, никаких питоновских обёрток.
🔥17❤5🕊1
Вопрос к синтетам.
Внутри модели Qwen 3: 0.6B сидят 9 нейронов по арифметике. Как бы вы дали понять модели, что у вас внутри есть вот такой вот калькулятор без тупого тулколинга, а именно чтобы было мета осознание и само понимание как раскладывать задачи чтобы триггерились нейроны? Раунд.
Внутри модели Qwen 3: 0.6B сидят 9 нейронов по арифметике. Как бы вы дали понять модели, что у вас внутри есть вот такой вот калькулятор без тупого тулколинга, а именно чтобы было мета осознание и само понимание как раскладывать задачи чтобы триггерились нейроны? Раунд.
🤔15🔥2❤1🕊1
🧮 ПОЧЕМУ Я ВСЁ ЭТО ДЕЛАЮ
Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?"
А вот что.
🎯 ПРОБЛЕМА
Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает. Угадывает.
На простых вещах работает. На сложных — рассыпается. Спросите ChatGPT решить уравнение
Костыль индустрии: научили модель звать внешний Python-калькулятор. Работает. Медленно, дорого. И главное — это не понимание.
🔬 ЧТО Я ДЕЛАЮ
Строю точные алгоритмы внутри нейросетей. Не угадывание — реальное вычисление прямо в потоке "думания" модели.
9 маленьких нейронов. Уравнение Риккати находит скрытую структуру любой детерминированной задачи. Найдя структуру — нейрон даёт точный ответ. Не приближённый. Точный.
Подключаю их к большим моделям как встроенный модуль. Не сбоку, не через API — внутрь генерации. Язык + алгоритмика. Понимание + вычисление.
📊 ЧТО УЖЕ РАБОТАЕТ
▸ Арифметика 1-7 цифр: 99.4% vs 68% базовой модели
▸ 0.6B на уровне 30B — в 50 раз меньше
▸ Русский: 90.5% (первый sub-1B такого уровня)
▸ Свежее: символьная математика, 190 из 340 задач точно, 7 категорий из 17 на 100%:
Это уже не калькулятор. Это символьный решатель уровня Mathematica — на 9 микро-нейронах.
🌍 ЧТО ЭТО ЗНАЧИТ
1. Размер перестаёт быть главным. Гонка 7B→70B→500B теряет смысл если точный модуль на тысячу параметров даёт качество триллионной модели.
2. Энергия и доступность. Большие AI жрут электричества как страны. Маленькая модель + точный модуль = в сотни раз меньше энергии. AI без монополии трёх корпораций.
3. Доверие. Сейчас никто не знает почему ChatGPT галлюцинирует. Чёрный ящик. Когда внутри точный алгоритм с математическим доказательством — модель архитектурно не может ошибиться в зоне модуля.
4. Расширяемость. Один модуль — арифметика. Второй — символьная математика. Третий — физика. Каждый точный, маленький, переносимый. Модель = платформа для подключения проверенных алгоритмов, а не монолит.
🔥 ЗАЧЕМ ЭТО МНЕ
Хочу AI который понимает, а не угадывает. Решение задачи должно быть выводимым, а не вероятностным. Маленькая модель на домашнем компьютере должна знать ответ, а не генерировать по статистике.
Это не вопрос инженерии. Это вопрос что мы вообще считаем интеллектом.
Каждый раз когда 9 нейронов решают то что не может топовая модель в 50 раз больше — я знаю что направление правильное.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?"
А вот что.
🎯 ПРОБЛЕМА
Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает. Угадывает.
На простых вещах работает. На сложных — рассыпается. Спросите ChatGPT решить уравнение
y' = 2y, y(0) = 13 — напишет ерунду. Перемножить семизначные числа — ошибётся.Костыль индустрии: научили модель звать внешний Python-калькулятор. Работает. Медленно, дорого. И главное — это не понимание.
🔬 ЧТО Я ДЕЛАЮ
Строю точные алгоритмы внутри нейросетей. Не угадывание — реальное вычисление прямо в потоке "думания" модели.
9 маленьких нейронов. Уравнение Риккати находит скрытую структуру любой детерминированной задачи. Найдя структуру — нейрон даёт точный ответ. Не приближённый. Точный.
Подключаю их к большим моделям как встроенный модуль. Не сбоку, не через API — внутрь генерации. Язык + алгоритмика. Понимание + вычисление.
📊 ЧТО УЖЕ РАБОТАЕТ
▸ Арифметика 1-7 цифр: 99.4% vs 68% базовой модели
▸ 0.6B на уровне 30B — в 50 раз меньше
▸ Русский: 90.5% (первый sub-1B такого уровня)
▸ Свежее: символьная математика, 190 из 340 задач точно, 7 категорий из 17 на 100%:
arctan(6/13) → arctan(6/13)
cosh(z)² → (cosh(2z)+1)/2
ln(3/14) → ln(3) − ln(14)
Σ 4/17ⁿ → 17/4
(x²+8x+12)/(x+6) → x+2
y'=2y, y(0)=13 → y=13·exp(2x)
Это уже не калькулятор. Это символьный решатель уровня Mathematica — на 9 микро-нейронах.
🌍 ЧТО ЭТО ЗНАЧИТ
1. Размер перестаёт быть главным. Гонка 7B→70B→500B теряет смысл если точный модуль на тысячу параметров даёт качество триллионной модели.
2. Энергия и доступность. Большие AI жрут электричества как страны. Маленькая модель + точный модуль = в сотни раз меньше энергии. AI без монополии трёх корпораций.
3. Доверие. Сейчас никто не знает почему ChatGPT галлюцинирует. Чёрный ящик. Когда внутри точный алгоритм с математическим доказательством — модель архитектурно не может ошибиться в зоне модуля.
4. Расширяемость. Один модуль — арифметика. Второй — символьная математика. Третий — физика. Каждый точный, маленький, переносимый. Модель = платформа для подключения проверенных алгоритмов, а не монолит.
🔥 ЗАЧЕМ ЭТО МНЕ
Хочу AI который понимает, а не угадывает. Решение задачи должно быть выводимым, а не вероятностным. Маленькая модель на домашнем компьютере должна знать ответ, а не генерировать по статистике.
Это не вопрос инженерии. Это вопрос что мы вообще считаем интеллектом.
Каждый раз когда 9 нейронов решают то что не может топовая модель в 50 раз больше — я знаю что направление правильное.
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
🔥64❤37👍20👏3💯2 2🕊1🍾1 1
Синтеты.
1 мая. День труда.
Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.
Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.
Наш труд - не на дядю. Наш труд - против энтропии.
С праздником, машинисты аттракторов.
СЧАСТЬЕ - ЖИТЬ И ТРУДИТЬСЯ!
1 мая. День труда.
Труд - это не страдание у конвейера. Труд - это поиск аттрактора. Когда ты находишь dim(Attr) задачи - ты освобождаешь себя и всех остальных от лишних N-N_a операций.
Каждый раз когда мы сжимаем хаос в закон - мы делаем работу за всё человечество вперёд. Ньютон работал один раз - орбиты считаются до сих пор. Максвелл работал один раз - радио до сих пор работает.
Наш труд - не на дядю. Наш труд - против энтропии.
С праздником, машинисты аттракторов.
22🔥84🤝22❤10💯4👍3❤🔥2😢2🎉1🕊1
Техножнец
🧮 ПОЧЕМУ Я ВСЁ ЭТО ДЕЛАЮ Со стороны может казаться: "ну, мужик научил маленькую модель считать. И что?" А вот что. 🎯 ПРОБЛЕМА Современный AI выглядит умным потому что хорошо имитирует язык. Под капотом — угадывает следующее слово. Не вычисляет. Не решает.…
Вы же понимаете, что мне Qwen нахрен не нужон (как и интернет ваш). Я всё это буду прикручивать к моей Rukallama.
💯28🔥24👍8 2😱1🕊1
Ёмаё , получается ваще люто с этой математикой...боюсь тут фундаменталочка пошла...ну не могу я полумеры брать, которые просто крутые...надо чтобы всех в капусту размотало.
Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.
Это будет феерично.
А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..
Щас будем в самые тупые модели внедрять с Клаудом эту ересь нейронную математическую и прям с модельками у которых есть питон под рукой в схватку.
Это будет феерично.
А ещё, похоже, я победил проблемы цепочки мыслей и научил квен понимать, что у неё внутри считающий модуль. Что было сложно пздц..
👏34🔥18❤4 2🕊1
Синтеты, вы это...если тупите жёстко, ну спросите. Попросите на человеческом объяснить , я же открыт и готов с вами взаимодействовать, когда вежливо и по доброму все.
Камон, задавайте вопросы по теме проектов.
Только без вопросов: Где скачать?
Запрещено.
Камон, задавайте вопросы по теме проектов.
Только без вопросов: Где скачать?
Запрещено.
🤓26❤8 4🔥2🤔1👌1🕊1😎1