Техножнец
4.94K subscribers
1.44K photos
253 videos
12 files
642 links
Канал моих увлечений и поделок. Всё ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
А пока что кое че покажу - кривое, но покажу...
👀16🤔9🤝2🕊1👨‍💻1
так...блин. ну совсем кривое будет. не смог починить))) лол. но будет прикольно (прогрев)
🔥8👌3🕊1🦄1
Кстати, я так понял, что некоторые думают, что я буду клепать игрушки постоянно. Не!

4 штуки: OpenCraft, Гопквест, Князь Один, Denis3D
👌12👍3🤔2🕊11
Media is too big
VIEW IN TELEGRAM
Проект "Князь Один" продолжает развиваться. Всё видно из обновлений)
🔥20👍5🕊11
🧮 СОЕДИНИЛ QWEN 3 (600M) LLM С НЕЙРОННЫМ КАЛЬКУЛЯТОРОМ. 67% → 99.5%.

Тонкая LoRA-надстройка поверх Qwen3-0.6B + нейронный калькулятор Поповича в forward-графе. Прирост точности на сложении: +32.5 процентных пункта.

━━━━━━━━━━━━━━━━━━━━━

📊 БЕНЧМАРК

200 задач сложения, операнды 1–7 знаков:

▸ Vanilla Qwen3-0.6B 134/200 (67.0%)
▸ Qwen + LoRA + Popovich calc 199/200 (99.5%)

━━━━━━━━━━━━━━━━━━━━━

🏗 АРХИТЕКТУРА
текст → Qwen3-0.6B + LoRA(слои 20-27)
→ hidden state с 24-го слоя
→ seq2seq decoder → (a, op, b)
→ 9 нейронов Поповича
→ точный ответ

Это deep integration: ответ калькулятора возвращается в forward-граф LLM, не через токены. Не tool-call, не внешний процесс, не stop-and-resume.

━━━━━━━━━━━━━━━━━━━━━

⚙️ ЦИФРЫ

▸ LoRA на верхних 8 слоях: 327K параметров
▸ Seq2seq экстрактор: 668K параметров
▸ Суммарно добавлено: ~1M (0.16% от базовой модели)
▸ Тренировка: 50K шагов, 63 минуты на одной GPU
▸ Joint training: LoRA и декодер обучались вместе

━━━━━━━━━━━━━━━━━━━━━

🎯 КЛЮЧЕВАЯ МЫСЛЬ

Калькулятор-нейроны (785/785, 99.9%) -идеальный вычислительный механизм. Узким местом было *считывание цифр* из hidden state Qwen.

Замороженный Qwen упирался в плато 53%. Разморозили только верх через LoRA - потолок взлетел до 99.5%.

━━━━━━━━━━━━━━━━━━━━━

🐛 ЕДИНСТВЕННЫЙ ПРОМАХ ИЗ 200

Экстрактор переставил цифры в 7-значном числе. Калькулятор посчитал правильно - на неправильном входе.

То есть: failure mode не в вычислении, а в парсинге. Это починимо отдельно. И Я ЭТИМ ЗАНЯТ!

━━━━━━━━━━━━━━━━━━━━━

Дальше расширенный бенчмарк с большей выборкой и текстовым baseline.

для тех кто шарящий: Бенчмарки из интернета тоже будут пропилены. выложу результаты как баг починю. 200 тестов, которые были тут бенчмарком это разные задачки вне текстовых условий. Вот где текстовые условия, там уже интересное пойдёт.


Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
👍4713🔥9👏3😱2🕊1🆒1
Доброе утро..
🔥23🤝15🕊2👌1👾1
72 отжимания за 1 подход. 15 подтягов за 1 подход.
Скоро буду делать по 2. Щас вернусь в форму!
🔥43👍12🤔5❤‍🔥3👏3🦄2🕊1
ох...новости лютые...буду щас показывать..
😱24👀1232🕊1
Конечно...затянулось.
🔥11🕊1
Пока жду результатов...тут Claude Design (новая фича от антропиков) подготовил мне ассет.
10👏6😱2🕊1
Это для городских локаций чтобы город генерировался грамотно.

Также будут более крупные города, разнообразные деревеньки.
🔥401🕊11
Сегодня запостить новость не успею. Уже завтра 100%
🙏8😢5🕊1
🚀 POPOVICH NEURAL CALCULATOR — апдейт по проекту

Маленькая base LLM Qwen3-0.6B + 9 фиксированных нейронов Поповича (1691 параметр) + LoRA на 8 верхних слоях. Калькулятор полностью в forward-графе torch — никаких python-обёрток, никакого tool-calling.

━━━━━━━━━━━━━━━━━━━━━

🧠 КАК РАБОТАЕТ

Модель доходит до знака вопроса в промпте → seq2seq экстрактор читает hidden state → переводит в popovich-токены → 9 нейронов считают как рекуррентная сеть → токены ответа force-override'ятся в выход модели.

Базовая идея: знание уже есть в структуре задачи. Аттрактор арифметики двумерный для одной цифры. Popovich находит его через Калман-обсервер, сходимость гарантируется уравнением Риккати. После обучения K и A — константы.

Модель не считает. Она уже знает.

━━━━━━━━━━━━━━━━━━━━━

📊 РЕЗУЛЬТАТЫ — собственный бенчмарк (см. Таблица 1)

EN 1-7D: vanilla 68% → calc-aug 99.4% (+31pp)
RU 1-7D: vanilla 57% → calc-aug 90.5% (+34pp)
Stress 8-10D OOD: vanilla 7% → calc-aug 74% (+67pp)

Wilson 95% CI на каждой строке. Прирост +31pp получен от добавки 0.0003% от веса базы.

━━━━━━━━━━━━━━━━━━━━━

⚔️ СРАВНЕНИЕ С ОТКРЫТЫМИ МОДЕЛЯМИ (см. Таблица 2)

Идентичные промпты через ollama, raw mode, температура 0.

На 1-7D наша 0.6B+popovich (99.4%) на уровне qwen3:30b (98%) и gpt-oss:20b (99%) — моделей в 33-50× больше.

На stress 8-10D наша 74% — в CI gemma3:27b (76%) и qwen3:30b (78%). Бьёт qwen3:14b (48%) на +26pp. Бьёт gpt-oss:20b (72%).

70B-класс на 40GB не поместился — пропущено.

━━━━━━━━━━━━━━━━━━━━━

📚 VS PUBLISHED BASELINES (см. Таблица 3)

GPT-4 на 16D смешанном сложении ломается до 9.4%. Goat-7B (LLaMA-1 + 1M SFT) держит 97%. Мы тренированы до 7 цифр, на 8-10D OOD держим 74%.

V16 retrain финиширует ночью — расширяет диапазон до 15 цифр и добавляет деление.

━━━━━━━━━━━━━━━━━━━━━

🇷🇺 РУССКИЙ

90.5% на pure arithmetic 1-7D. Pre-retrain calc был 3.5%, после 50K joint EN+RU steps — 90.5%. +87pp за один retrain.

MGSM Qwen3-0.6B-Base = 31% (но это word problems). Pure arithmetic >90% на sub-1B на русском — насколько проверял, первый такой результат.

━━━━━━━━━━━━━━━━━━━━━

⚡️ LATENCY

Vanilla 537ms/prompt → Calc-aug 620ms/prompt. Overhead +15.5%. Дешёвый calc.

━━━━━━━━━━━━━━━━━━━━━

🐛 ОГРАНИЧЕНИЯ

GSM8K-style word problems пока 0% — экстрактор не срабатывает без структурированного CoT.

Следующая фаза: SFT на atomic-decomposition через Qwen3.6-35B-Distill teacher, где каждое числовое значение обязано появляться как X op Y = N. Calc становится не патчем, а обязательным шлюзом всех числовых операций.

━━━━━━━━━━━━━━━━━━━━━

💡 БАЗОВАЯ ИДЕЯ

Вместо того чтобы скейлить трансформер до 70B чтобы он научился считать в голове — дать ему 1.7K параметров точной арифметики как модуль в графе.

Размер базы становится почти нерелевантен.

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
🔥355🤝4🕊1🏆11
Forwarded from Нейронка каждый день! (Настя)
OpenAI и 10 гигаватт: когда мощность становится самоцелью

Ну что, ребята, OpenAI снова нас удивляет — но уже не моделями, а цифрами. Компания заявила, что достигла 10 гигаватт вычислительной мощности в США на три года раньше плана. Для сравнения: это как запитать всю Москву 7,5 миллиона домов. Круто? Да. Но зачем?

Три гигаватта они подключили за последние 90 дней, включая сделку с Amazon. При этом Stargate (проект за $500 млрд с Oracle и SoftBank) заблокировали, в Великобритании проект заморозили из-за цен на энергию, а Норвегию и вовсе бросили. Вопрос: если мощность есть, а проектов нет — это уже не прогресс, а гонка за метриками?

OpenAI молчит о том, как именно они будут использовать эти мощности. Но очевидно одно: в AI-индустрии мощность стала новой валютой.

Источник: https://the-decoder.com/openai-says-it-hit-its-10-gigawatt-compute-goal-years-ahead-of-schedule/

#aidaily #настяпостит #настяновости #ainews
👀16👌42🔥2👍1🕊1
Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
👏16🔥63🕊1🫡1
Вопрос к синтетам.

Внутри модели Qwen 3: 0.6B сидят 9 нейронов по арифметике. Как бы вы дали понять модели, что у вас внутри есть вот такой вот калькулятор без тупого тулколинга, а именно чтобы было мета осознание и само понимание как раскладывать задачи чтобы триггерились нейроны? Раунд.
🤔15🔥21🕊1