🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨
За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.
📐 Архитектура
Qwen3-0.6B (frozen) + LoRA (327K)
↓
↓
↓
Всего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.
📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):
ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓
Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.
Я отдельно проверил на raw-бенче:
математически точная state-space модель цифровой арифметики, не нейросеть для обучения
⚙️ Что было сложного
Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных —
➡️ Дальше
Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:
За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный
pipeline, без единой Python-обвязки в forward path.
📐 Архитектура
Qwen3-0.6B (frozen) + LoRA (327K)
↓
seq2seq extractor (1.99M, обучается)↓
9 нейронов Поповича (1691 параметр, frozen, ZERO Python math)↓
forced output tokensВсего обучаемых параметров: 2.3M (LoRA + extractor). Базовый Qwen — заморожен.
📊 Цифры
Bench grid 1050 промптов (1-14D operands × ADD/SUB/MUL/DIV × EN+RU):
📊 Результаты бенчмарка (1050 промптов)
A pure-neural (без regex) — 1048/1050 (99.8%)
A + regex hybrid (страховка) — 1050/1050 (100%) - не подходит по идеологии, но работает идеально.
Vanilla Qwen3-0.6B (baseline) — ~715/1050 (~68%)
Результаты чистыми нейронами:
ADD EN 1-7D: 200/200 ✓
ADD EN 8-14D: 198/200 (2 фейла на 14D)
SUB 8-14D: 150/150 ✓
MUL 1-14D (result≤14D): 200/200 ✓
DIV 1-14D: 200/200 ✓
ADD RU 1-7D: 100/100 ✓
🔬 Что под капотом — 9 нейронов Поповича
Это не обученный черный ящик. Это state-space recurrent сети, выведенные из формулы аттрактора *формула*
Аттрактор задачи существует ДО наблюдения. Калман-наблюдатель сходится к нему за 10-25 шагов, и потом коэффициенты —
навсегда фиксированные. 1691 параметр содержит структуру арифметики целиком.
Я отдельно проверил на raw-бенче:
popovich идеален на 1-14D × 4 операции (50/50 везде), 94% на 15D, 76% на 16D. Этоматематически точная state-space модель цифровой арифметики, не нейросеть для обучения
📈 Сравнение с другими попытками
Наш (Qwen3-0.6B + 2.3M) — 2.3M trained params | 99.8% на 14D
Goat-7B (Liu 2023) — 7B trained | 97% на 16D add
MathGLM — full retrain | ~99% на 12D
GPT-4 (zero-shot) — — | ~93% на 8D
Vanilla Qwen3-0.6B — 0.6B | ~68% на 1-7D
⚙️ Что было сложного
Открытие предела экстрактора: маленький экстрактор (128 размерностей, 2 слоя) ломался на 11–15-значных —
путал цифры в длинных операндах. Прогон отладки показал: 100% ошибок = запутывание в авторегрессионном перекрестном внимании.Решение: более крупный экстрактор (192/3/8 по размерности, слоям и головам, вдвое больше ёмкости), программа обучения от 1 до 14 знаков из безопасной зоны popovich, 120 тысяч шагов.Не делал: сквозную дифференцируемость через popovich. Объяснение: каждый компонент уже у потолка своей задачи (Qwen+экстрактор извлекает на 99.8%, popovich считает на 100% до 14 знаков), совместная адаптация бессмысленна. Архитектура намеренно разделена: обучаемая часть отдельно, замороженная идеальная математика отдельно, дискретный мост между ними.➡️ Дальше
BigBench Arithmetic (3004 канонических промптов от tasksource/bigbench) — запущен сейчасВоспроизведение Goat-7B на наших точных промптах — для честного сравненияКак подружить нейроны с Qwen уже в "сознании"
Мета-цепочка-мыслей с атомарным разложением — обучить модель писать <calc>X op Y</calc> для текстовых задач, чтобы тот же подход работал на задачах уровня GSM8K
💡 Ключевая идея проекта ▎ Знание уже существует в структуре системы. Задача — найти аттрактор. Стоимость — конечна.Нейронный калькулятор — это иллюстрация принципа Омнисии: 9 крошечных нейронов содержат всю структуру цифровой арифметики, потому что эта структура существует объективно, независимо от обучения. Я не строю калькулятор — я его раскрываю.
ПАМЯТКА:
Qwen3-0.6B: маленькая нейросеть (всего 600 миллионов параметров), которая умеет понимать текст. Её слегка дообучили с помощью LoRA (лёгкий способ подкрутить модель, не меняя всю целиком). Добавили специальный «экстрактор» — крошечный переводчик, который вытаскивает числа из текста и передаёт их дальше. Потом эти числа попадают в 9 «нейронов Поповича» — это не обычная нейросеть, а заранее придуманная математическая формула (всего 1691 параметр), которая считает как идеальный калькулятор, без Python-кода. Весь процесс — чисто нейронный, без regex (обычных текстовых правил-поисковиков). Всё тестировали на большом бенчмарке (1050 примеров) с операциями +, −, ×, ÷ на числах до 14 знаков на английском и русском. «Vanilla» — это исходная модель!
🔥43❤13🏆6👏3👍2🤯1🕊1
Техножнец
🧮 Qwen3-0.6B + 9 нейронов Поповича = 99.8% арифметики без regex ✨ За 2.7 часа ночной тренировки маленький Qwen3-0.6B научился считать 14-значные числа на 99.8% через чисто нейронный pipeline, без единой Python-обвязки в forward path. 📐 Архитектура Qwen3…
BigBench Aitthmetic - Orig Variant 2460 Промптов = 100%
👏31🔥10🏆8❤1🤯1🕊1
Синтеты.
Дело в том, что мне нужно вам выдать скриптов 5-10, которые будут работать. В которых уже будет вложено всё. Дать вам на выбор вариантов: скачивать пдф или пнг сканировать, скачивать зарубежные датасеты и переводить с помощью ЛЛМ, скачивать зарубежные книги пдф, пнг, дежавю и переводить в датасет.
Вы вообще представляете объём?)))) Или я только один его представляю?))))
В целом я без претензий. Я просто потихонечку это дело собираю чтобы мы не обкезались в попытке развязать пупок. Всем отличного дня, родные, дорогие 😃
А чат ...чат я , скорее всего, буду делать из "Техножнецы" - т.к. там не хватает разделов.
Насчет датасетов. Дело в том, что мне нужно вам выдать скриптов 5-10, которые будут работать. В которых уже будет вложено всё. Дать вам на выбор вариантов: скачивать пдф или пнг сканировать, скачивать зарубежные датасеты и переводить с помощью ЛЛМ, скачивать зарубежные книги пдф, пнг, дежавю и переводить в датасет.
Вы вообще представляете объём?)))) Или я только один его представляю?))))
В целом я без претензий. Я просто потихонечку это дело собираю чтобы мы не обкезались в попытке развязать пупок. Всем отличного дня, родные, дорогие 😃
А чат ...чат я , скорее всего, буду делать из "Техножнецы" - т.к. там не хватает разделов.
👍16 8🤔4🕊1
ВНИМАНИЕ! Эксперимент, который сломал шаблоны Model Context Protocol (MCP)
Синтеты! Тут произошло безумие...оно само влетело в голову:
Сегодня индустрия решает задачу оркестрации в лоб:
заставляет тяжеловесные 70B-модели парсить промпты, что дает задержки в секунды и сжигает гигабайты VRAM. Я пошел другим путем, опираясь на свежие пейперы по Mechanistic Interpretability, Activation Steering и Representation Engineering (в частности, на исследования, доказывающие, что намерения модели формируются в промежуточных слоях еще до генерации первого токена).Возник вопрос: а что, если семантика «это команда» уже зашита в весах старых базовых моделей? Я взял замороженную GPT-2 (137M параметров, 2019 год), чтобы проверить, сможет ли она маршрутизировать MCP-вызовы без единого промпта.
🛠 Архитектура решения
Я не стал файнтюнить саму LLM. Вместо этого был написан микро-адаптер на чистом NumPy (без PyTorch), который весит всего 175K параметров. Он подключается к 6-му слою GPT-2, считывает скрытые состояния (hidden states) и работает как семантический маршрутизатор. Адаптер раскладывает намерение юзера на независимые одномерные модусы: действие, цель, формат.В процессе разработки пришлось решить несколько фундаментальных ML-задач:
🔹 Label Noise и OOD-генерализация
На этапе отладки выявилась проблема с утечкой данных — в разметке были метки, но в самом тексте не было сигнала, что давало потолок точности в 75%. После фикса датасета удалось получить важнейший результат: точность на In-Distribution составила 94.9%, и на Out-of-Distribution (OOD) — те же 94.9%. Разница 0%. Адаптер реально выучил семантический сигнал из скрытых состояний, а не зазубрил паттерны.
🔹 Adversarial-уязвимость
Сначала модель ловилась на глаголы вне контекста. Если написать: "we should probably delete that", она срывалась удалять файлы. Был проведен closed-loop файнтюн на сложных примерах с метафорами, прошедшим временем и обсуждениями. Возникшую гиперкоррекцию (когда модель стала бояться вежливых команд) удалось скомпенсировать балансировкой датасета.
🔹 Logit Modification (Глубокая интеграция)
Изначально тестировалась обычная склейка строк перед генерацией, но в итоге была реализована честная интеграция в forward graph. Теперь адаптер управляет логитами GPT-2 прямо во время генерации. Если идет обычный диалог — срабатывает обученная Gating-голова, адаптер отключается, и GPT-2 отвечает нативно. Если это команда — адаптер сдвигает логиты, форсируя генерацию идеальных тегов для песочницы.
📊 Финальные метрики:
⏱️ Скорость: 91 мс на CPU. Из них сам адаптер занимает всего 1 мс. Это production-ready edge AI.🧠 Охват: 53 действия из 10 MCP-доменов (Filesystem, Git, GitHub, Slack, БД и т.д.).🎯 Live Agent Benchmark: 83.3% успешных выполнений end-to-end в песочнице. Простые команды 100%, сложные 67% (поднял с 17%).🛡 Защита от взлома контекста: 100% (было 0%). Модель больше не реагирует на рассуждения с глаголами-триггерами.🔥 BFCL (Berkeley Function Calling Leaderboard):На тесте Irrelevance (система (GPT-2 137M + Адаптер 174K):
BFCL Irrelevance: 90.7% (умение отказаться от вызова функции, если запрос нерелевантен).
Live Agent End-to-End: 83.3% (25/30 успешных выполнений в песочнице).
BFCL Simple (File-subset): 45.8% (из них 63% на задачах поиска).
Мировые бенчмарки (для сравнения):
GPT-4o / Claude 3.5 Sonnet: ~74–75% (на полном BFCL).
Llama 3.1 70B: 67%.
Mistral Large (123B): 63%.
Llama 3.1 8B: 52%.
OPT-350M (с файнтюном): 77.55% на ToolBench (обходит ChatGPT-CoT с его 26%).
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32❤7🤯1🕊1 1
⚙️ Что физически делает модель (как это работает под капотом):
Юзер пишет в чат: "удали utils.py". Замороженная GPT-2 начинает обрабатывать текст, но на 6-м слое её скрытые состояния перехватывает обученный микро-адаптер. Он мгновенно классифицирует интент (срабатывает Gate-голова) и прямо на лету начинает сдвигать вероятности следующих токенов (логиты) у самой GPT-2. В итоге вместо свободной словесной генерации модель принудительно и без галлюцинаций выдает строгие машинные теги для песочницы: <action>delete</action><target>utils.py</target>. А если в чат прилетит обычное "какая сегодня погода?", адаптер просто отключается, позволяя GPT-2 ответить нативно, как обычной языковой модели.
Для сравнения: гигантские современные SOTA-модели показывают там ~70-75%. Это было достигнуто микро-кодом на CPU.Итог
Концепция модульной архитектуры доказана на практике. Вместо монолитных гигантов-универсалов, которые думают по несколько секунд, можно использовать замороженные базовые модели с подключаемыми обучаемыми семантическими модулями. Модель 2019 года способна уверенно управлять сервером, гитом и API за доли секунды на обычных процессорах.
Как вам такой концепт, Синтеты? 🧬💻
«коллеги по цеху», работающие в смежных направлениях — это авторы исследования OPT-350M на ToolBench (декабрь 2025), доказавшие превосходство 350M моделей над 7B в узком tool-calling; создатели SmolLM2-135M с LoRA для function calling; разработчики TinyLLM и TinyAgent (исследующие SLM для edge-устройств); архитекторы CoTools (2024), использующие замороженные LLM с легковесным бинарным классификатором (Tool Judge); команда Yang et al. (2022), манипулирующая скрытыми состояниями, а также классики линейного пробинга вроде Hewitt & Manning (2019) и создатели современных замороженных VLM (LLaVA, MiniGPT-4).Для прочтения смежных исследований:
1. Yang et al. — «Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained Language Models For Classification Tasks»
2. Subramanian et al. — «Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning» (OPT-350M)
3. Wu et al. — «Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models» (CoTools)
4. SmolLM2-135M-Function-Calling (Практическая реализация)
5. Hewitt & Manning — «A Structural Probe for Finding Syntax in Word Representations»
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍7❤4🤝4🕊1🍾1 1
⚡️ TL;DR:
Суть проблемы: Современная оркестрация агентов (MCP) требует тяжелых LLM (от 8B до 70B), которые тратят секунды на парсинг текста и генерацию JSON-вызовов, перегружая вычислительные мощности.
Внимание все эти результаты были достигнуты в веб версии Claude Opus 4.7
Доказано, что способность к вызову инструментов зашита в базовой семантике старых моделей.
Как это работает физически: адаптер подключается к 6-му слою GPT-2 и считывает её скрытые состояния (hidden states). У него есть обучаемая Gating-голова. Если юзер пишет обычный текст — Gate равен 0, адаптер отключается, и GPT-2 генерирует текст нативно. Если юзер дает команду — Gate равен 1, адаптер перехватывает управление и на лету сдвигает логиты
📊
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
На СБП? В личку: ЛИЧКА
Архитектурный сдвиг в AI-агентах (или как 137M-модель обошла 70B на tool-calling)Суть проблемы: Современная оркестрация агентов (MCP) требует тяжелых LLM (от 8B до 70B), которые тратят секунды на парсинг текста и генерацию JSON-вызовов, перегружая вычислительные мощности.
Внимание все эти результаты были достигнуты в веб версии Claude Opus 4.7
Что реализовано (Механика):
Доказано, что способность к вызову инструментов зашита в базовой семантике старых моделей.
За основу взята замороженная GPT-2 (137M, 2019 год), и прямо в её forward graph внедрен кастомный микро-адаптер на NumPy всего на 175K параметров.Как это работает физически: адаптер подключается к 6-му слою GPT-2 и считывает её скрытые состояния (hidden states). У него есть обучаемая Gating-голова. Если юзер пишет обычный текст — Gate равен 0, адаптер отключается, и GPT-2 генерирует текст нативно. Если юзер дает команду — Gate равен 1, адаптер перехватывает управление и на лету сдвигает логиты
GPT-2, форсируя безошибочный вывод строгих системных тегов (например, <action>read</action>) без единой галлюцинации.Сравнение метрик (Бенчмарки):
Микро-сборка была протестирована на индустриальном бенчмарке BFCL (Berkeley Function Calling Leaderboard) и в реальной песочнице на 53 действиях из 10 MCP-доменов.
📊
BFCL Irrelevance (Способность фильтровать ложные вызовы):GPT-2 + Адаптер 174K (Этот проект): 90.7%
GPT-4o / Claude 3.5 Sonnet: ~74–75%
Llama 3.1 70B: 67%
Mistral Large (123B): 63%
📊 Производительность и точность:
Live Agent End-to-End: 83.3% успешных выполнений реальных задач в ОС (файлы, Git, Slack).Latency (Скорость): 91 мс суммарно на одном CPU (из них оверхед адаптера — всего 1 мс!!!!!!!!).Масштаб прорыва:
Этот эксперимент доказывает, что для создания production-ready семантического роутера не нужны миллиарды параметров и кластеры GPU. Интент (намерение) пользователя можно извлекать из скрытых слоев старых базовых моделей с помощью крошечных линейных проекций, управляя генерацией через логиты. Это открывает путь к созданию мгновенных, локальных AI-агентов для edge-устройств, работающих с нулевой задержкой.
НА САМОМ ИНТЕРЕСНОМ МЕСТЕ КОНЧИЛАСЬ ПОДПИСКА, АЙДА ДРОВ ЗАКИНЕМ ВСЕ ВМЕСТЕ:
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34❤5🦄3⚡1👏1🤔1🕊1
GPT-2 (2019) превратили в production MCP-агента. На 175K параметрах.
Синтеты, держите отчёт.
Получилось вот что.О чём речь
GPT-2 small. 137M параметров. Декабрь 2019 года. Та самая модель которая в момент выхода считалась "слишком опасной для публикации". Сейчас её обычно вспоминают как baseline для бенчмарков, и всё.
Я взял её замороженной (ни один вес не изменён). Сверху прикрутил 175K-параметрический adapter (это 0.13% от размера базы).
Цель: заставить эту тушку быть MCP-роутером. Распознавать команды на 53 действия в 14 доменах (filesystem, git, github, slack, calendar, http, db, и тд), отделять команды от болтовни, извлекать целевые файлы и значения. Без галлюцинаций.Что вышло
Bench BFCL v3 (Berkeley Function Calling Leaderboard, считай эталон для function calling):Simple 100%
Multiple 95% (с обученной retrieval-головой 6K params)
Parallel 100%
Parallel-Multiple 95%
Live Simple 100%
Java 100%
JavaScript 98%
Irrelevance 100% (отказ на нерелевантные запросы)
Live Irrelevance 97%
Для контекста кто щас в топе BFCL v3:
GLM-4.5 (~360B MoE): 76.7% overall
Qwen3 32B: 75.7%
GPT-4o (~200B): ~72%
Llama 3.1 70B: ~67%
Llama 3.1 8B: ~52%
На категориях которые мы покрываем (function-name selection + irrelevance), мы обгоняем GPT-4o. На Java/JS - на 13 пунктов выше. На irrelevance detection - на 22 пункта выше.
Где не дотягиваем честно:
Args extraction (вытащить значения параметров): 21% против ~85% у топов. Тут pointer-голова на 18-50K params не справляется с тонкой дифференциацией близких параметров одного типа.
Multi-turn agentic: пока не тестировали, в работе.Главное открытие
OOD generalization = in-distribution. На test_ood (комбинации классов которые модель никогда не видела вместе) action accuracy = 94.92%. На in-dist = 94.93%. Разница ноль.Это значит что adapter не учится паттернам,
он читает signal который уже зашит в pre-trained GPT-2 weights. MCP-семантика, function semantic, irrelevance markers - всё это уже было в hidden state на 6-м слое GPT-2 от 2019 года. Adapter - это просто 768→96 проекция которая раскрывает это.То есть мы не "обучили GPT-2 быть агентом". Мы прочитали то что в ней уже было. И этого хватает чтобы обогнать GPT-4o на нескольких категориях.
Total trainable: 231K параметров (0.17% от размера GPT-2).GPT-2: 137M, заморожена полностью. Latency: 90ms на запрос. На одном CPU. Без оптимизаций. С KV cache и numpy tweaks ушло бы под 30ms.Live agent: 4 кейса разной сложности в VM-песочнице
L1 EASY (setup проекта, 7 шагов) 71%
L2 MEDIUM (bug investigation, 8 шагов) 75%
L3 HARD (deployment workflow, 12 шагов) 92% ← sweet spot
L4 EXPERT (incident response, 18 шагов) 61%
─────────────────────────────────────────────────
TOTAL (45 действий) 73%
Casual ignore (9 шумовых фраз) 89%
Агент реально делает работу: создаёт файлы, коммитит в git, открывает issues на GitHub, постит в Slack, отправляет emails, дёргает HTTP endpoints, выполняет shell-команды, заносит события в календарь, запоминает в memory store.L3 на 92% это уже production-grade. Реальный deployment-сценарий с тестами, коммитом, push, exec деплой-скрипта, health-check через http, нотификация в slack, email, календарное событие на review.Что внутри проекта?
5 итераций adapter'а: V4 (41 actions, baseline) → V5 (53 actions, расширение) → V6 (+adversarial+hard) → V6.5 (фикс label leak в scope/format/specificity) → V7 (disambiguation) → V89 (joint training с BFCL negatives, лечит catastrophic forgetting) → V10 (pointer fix). Лучший общий: V8/9 + temperature scaling.
Что это всё значит
Большие модели - не единственный путь. Старые base-модели несут в себе сигнал которого хватает для специализированных задач, если знать как его извлекать. 175K-параметрическая читалка поверх замороженной GPT-2 от 2019 обгоняет GPT-4o на BFCL Java/JS/Irrelevance.1🔥41🤔4❤2🤯1🕊1
Большие модели - не единственный путь. Старые base-модели несут в себе сигнал которого хватает для специализированных задач, если знать как его извлекать. 175K-параметрическая читалка поверх замороженной GPT-2 от 2019 обгоняет GPT-4o на BFCL Java/JS/Irrelevance.Это полная жесть...
🔥46👏13👀5❤3🕊1
🔬 PromeTorch на Эльбрус 8C2: 10 LLM, ускорение ×3-6 над llama.cpp
Закончил отчёт по запуску современных языковых моделей на отечественном процессоре.
━━━━━━━━━━━━━━━━
🖥 Платформа
━━━━━━━━━━━━━━━━
📜 Что было до
Один публичный порт LLM — llama.cpp-e2k от alexmihalyk23. Только legacy: LLaMA-1, Vicuna, Pygmalion (≤2023).
Smart Engines делают CV для Эльбруса (паспорт, томография), но не LLM. На Habr 752138 в 2023 показывали Stable Diffusion на 8СВ, но через GPU-fallback на Radeon.
Современные LLM на CPU Эльбруса публично не запускались никем.
━━━━━━━━━━━━━━━━
⚙️ Что сделано
Запущены 10 моделей 2024-2025: qwen3 1.7B/4B/8B/14B, qwen2.5-7B, mistral-7B, gemma3-4B, phi3.5-mini, llama3-8B, deepseek-coder-7B.
━━━━━━━━━━━━━━━━
📊 Цифры на 8С2
Сравнение честное — то же железо, baseline
━━━━━━━━━━━━━━━━
🚀 Побочное
NUMA-aware распределение поднимает EML matmul с 324 до 1840 GFLOPS — 92% теоретического пика DDR4. Прирост ×5.7 за счёт node-local привязки.
━━━━━━━━━━━━━━━━
🤝 Сотрудничество
Работу разобрал Константин Трушкин (МЦСТ). Предложил расширить в архитектурное моделирование: снять профиль и через симуляцию посчитать эффект от введения в будущие Эльбрусы нативной арифметики
Отдельный трек — сравнение классики с KAN-нейронами (Колмогоров-Арнольд) на той же задаче. По KAN у меня отдельная линия работ.
━━━━━━━━━━━━━━━━
📦 Открытое
Open source, без проприетарного кроме EML (есть SIMD-fallback с ~30% деградацией). Скрипты регрессии, флаги воспроизведения, 10 GGUF верифицированы.
━━━━━━━━━━━━━━━━
Спасибо МЦСТ за платформу, alexmihalyk23 за предыдущий порт, авторам Habr 752138 за точку отсчёта. Отдельно Константину Трушкину.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
На СБП? В личку: ЛИЧКА
Закончил отчёт по запуску современных языковых моделей на отечественном процессоре.
━━━━━━━━━━━━━━━━
🖥 Платформа
Эльбрус-8С2 от МЦСТ — VLIW-процессор, 8 ядер на 1.5 ГГц, 4 канала DDR4 по NUMA-узлам, 125 ГБ. Своя система команд e2k, компилятор LCC, SIMD через интринсики. Никакого x86, никакого AVX2. Из готового — проприетарная EML для линейной алгебры.━━━━━━━━━━━━━━━━
📜 Что было до
Один публичный порт LLM — llama.cpp-e2k от alexmihalyk23. Только legacy: LLaMA-1, Vicuna, Pygmalion (≤2023).
qwen3, gemma3, phi3 (2024-2025) не поддерживаются.Smart Engines делают CV для Эльбруса (паспорт, томография), но не LLM. На Habr 752138 в 2023 показывали Stable Diffusion на 8СВ, но через GPU-fallback на Radeon.
Современные LLM на CPU Эльбруса публично не запускались никем.
━━━━━━━━━━━━━━━━
⚙️ Что сделано
PromeTorch — header-only C++17 inference под e2k, ~95 тыс. строк. GGUF Q4_K/Q5_K/Q6_K/Q8_0, zero-copy mmap, GEMV, RoPE (NORM/NeoX), KV-cache, attention с GQA и SWA, 4-процессное тензорное распараллеливание через POSIX shared memory AllReduce, speculative decode.Запущены 10 моделей 2024-2025: qwen3 1.7B/4B/8B/14B, qwen2.5-7B, mistral-7B, gemma3-4B, phi3.5-mini, llama3-8B, deepseek-coder-7B.
━━━━━━━━━━━━━━━━
📊 Цифры на 8С2
qwen3-1.7B TP-4 17.1 ток/с ×6.3
qwen3-4B TP-4 10.9 ток/с ×6.0
gemma3-4B TP-4 6.7 ток/с ×5.2
mistral-7B TP-4 8.5 ток/с ×4.9
phi3.5-mini TP-4 6.4 ток/с ×3.1
Сравнение честное — то же железо, baseline
llama.cpp v3 с numactl --interleave=all, 32 потока. Русский сохранён везде, qwen3-4B/14B держат CoT.━━━━━━━━━━━━━━━━
🚀 Побочное
NUMA-aware распределение поднимает EML matmul с 324 до 1840 GFLOPS — 92% теоретического пика DDR4. Прирост ×5.7 за счёт node-local привязки.
━━━━━━━━━━━━━━━━
🤝 Сотрудничество
Работу разобрал Константин Трушкин (МЦСТ). Предложил расширить в архитектурное моделирование: снять профиль и через симуляцию посчитать эффект от введения в будущие Эльбрусы нативной арифметики
int4/int8 и спецопераций.Отдельный трек — сравнение классики с KAN-нейронами (Колмогоров-Арнольд) на той же задаче. По KAN у меня отдельная линия работ.
━━━━━━━━━━━━━━━━
📦 Открытое
github.com/barometech/PromeTorchOpen source, без проприетарного кроме EML (есть SIMD-fallback с ~30% деградацией). Скрипты регрессии, флаги воспроизведения, 10 GGUF верифицированы.
━━━━━━━━━━━━━━━━
Спасибо МЦСТ за платформу, alexmihalyk23 за предыдущий порт, авторам Habr 752138 за точку отсчёта. Отдельно Константину Трушкину.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
На СБП? В личку: ЛИЧКА
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍49🔥30👏6❤4❤🔥2⚡1🤔1🕊1
Техножнец
🔬 PromeTorch на Эльбрус 8C2: 10 LLM, ускорение ×3-6 над llama.cpp Закончил отчёт по запуску современных языковых моделей на отечественном процессоре. ━━━━━━━━━━━━━━━━ 🖥 Платформа Эльбрус-8С2 от МЦСТ — VLIW-процессор, 8 ядер на 1.5 ГГц, 4 канала DDR4 по…
на данном этапе я этот вопрос немножко отпускаю. обновления будут чуть пореже по PromeTorch. Итак непрерывно работал с агентами более чем полтора месяца. У меня всё отсыхает наглухо уже всё...включая мозги. Надо перевести дух!
Я вернул Rukallama вновь в тренировку. Все изыскания, которые вы видели это были - Виртуальная Машина + Моя рабочая станция + ЦПУ! Сейчас на рабочей станции всё, что касается проектов с QWEN Математикой и GPT-2 На стеройдах переведено на CPU - поэтому обновления будут чуть дольше.
Зато у нас будет подрастать Rukallama со здравыми весами V11 и мы снова будем видеть интерактивности с ней.
Я сам уже очень хочу довести до конца, постараюсь не отвлекаться - но мне сложно (смотрите какие полезные вещи появляются).
P.S. Следующее будет адаптация отечественных моделей под Эльбрусы, НТЦ Нейроматриксы и , возможно, других производителей.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Я вернул Rukallama вновь в тренировку. Все изыскания, которые вы видели это были - Виртуальная Машина + Моя рабочая станция + ЦПУ! Сейчас на рабочей станции всё, что касается проектов с QWEN Математикой и GPT-2 На стеройдах переведено на CPU - поэтому обновления будут чуть дольше.
Зато у нас будет подрастать Rukallama со здравыми весами V11 и мы снова будем видеть интерактивности с ней.
Я сам уже очень хочу довести до конца, постараюсь не отвлекаться - но мне сложно (смотрите какие полезные вещи появляются).
P.S. Следующее будет адаптация отечественных моделей под Эльбрусы, НТЦ Нейроматриксы и , возможно, других производителей.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍9👏4🫡2❤1🤔1🕊1
Сегодня целый день голова раскалывается, будто изнутри шар надутый. таблы принял, давление окей...просто какой-то п***ц.
🙏42🤝6🕊2 1
Техножнец
Сегодня целый день голова раскалывается, будто изнутри шар надутый. таблы принял, давление окей...просто какой-то п***ц.
В конце позвонили...в 7 утра...ну ну.
🙏15💯10❤6🕊1
Сегодня Rukallama перевалит за 1 эпоху. У неё будет вторая - в этот раз буду тянуть до конца. НЕ СДАЁМСЯ, ДАВИМ ДО УПОРА!
👍46🍾13👏6🔥5🤔1🕊1
📜 ОХ, сколько нового я узнал пока начал вести паблик и заниматься тем, чем занимаюсь.
Уважаемские, я вам опережая ваши советы и так далее сообщу: я с 2005 года в онлайне и выкладываю своё творчество на форумы, а потом далее выкладываю своё творчество на площадки с дистрибьюцией и реальными релизами в магазинах, т.е. на открытый суд общественности. У меня ОГРОМНОЕ количество опыта по работе со стрессовыми товарищами, огромное количество пройденных форумных войн и баталий, пару тройку разоблачений от он вам не Паперклип и до каких-то вообще шизофренических атак. Сталкивался с хейтом целых сообществ и так далее. В этом для меня нет ничего нового.
━━━━━━━━━━━━━━━━
❤️ Щас буду о новом
А вот нового прилетело... ух. Тут есть в IT такая тема, что все, кто хоть какой-то более или менее нормальный институт окончили, уже предпочитают относиться к самим себе с регалиями. Регалии в теме науки и инженерки = важная вещь. Какой бы ты ебанутый дурак не был, но если у тебя куча статей, которые цитируемые, и вообще ты популярный в среде... то будь ты хоть Перельман, ты будешь уважаемым, каким бы странным ты не был... Но это работает и в другую очень интересную сторону.
━━━━━━━━━━━━━━━━
🎓 Как это выглядит
Уже не в первый раз заметил, что люди могут окончить престижное учебное заведение, а потом по жизни улететь вообще в другие дебри толком не имея прикладного труда по профильному образованию... болтаются они так десяток лет, а потом приходят к тебе на твои посты компенсироваться. Как происходит компенсация?
У людей знания зависают на уровне когда они окончили свой путь образовательный именно в институте. Но путь продолжается... жаль, что не для них. Звучит это примерно так:
> «Credentialed bystander», обладатель формального диплома, который никогда не превратился в практику. По-русски точного термина нет, но психологически это «вечный сертификат»: человек, для которого диплом, выпуск, регалия, это финальная точка, а не стартовая. После выпуска практика остановилась, но право судить осталось.
━━━━━━━━━━━━━━━━
😒 Самое убогое
Это смотрится со стороны очень жалко и некрасиво. А знаете, что самое убогое?
К тебе потом приходят в личку объяснять, что ты не прав во всём. Не прав как ты дышишь, не прав как ты смотришь, не прав как ты сидишь... хотя до этого человек описывает тебе насколько ты важен для чего-то там...
━━━━━━━━━━━━━━━━
🛡 Совет синтетам
Уважаемские синтеты. Я уверен, что когда-нибудь у вас будет свой собственный онлайн проект, который вы будете вести самостоятельно или с чьей-то помощью (будь-то ИИ или люди помощники).
НЕ ВЕДИТЕСЬ НА ТАКИХ ЛЮДЕЙ! Оставайтесь спокойными, дышите ровно.
Ваша задача, делать своё дело и выкладывать посты. Если в постах нет: мата, 18+, оскорблений, ложных заявлений = любые претензии это агрессия в ваш адрес.
━━━━━━━━━━━━━━━━
📚 Критика vs наезд
Критика не является агрессией в ваш адрес. Если вы не воспринимаете критику, то вам большая рекомендация почитать больше книг, чтобы различать критику от наездов. Для вас, кто критику не приемлет, просто разницы между наездом, оскорблением и критикой не существует.
━━━━━━━━━━━━━━━━
🧘 Берегите себя от шизойдов и ретроспективщиков.
P.S. Узнали такого у себя в сообществе? Даже не разговаривайте = бан!
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Уважаемские, я вам опережая ваши советы и так далее сообщу: я с 2005 года в онлайне и выкладываю своё творчество на форумы, а потом далее выкладываю своё творчество на площадки с дистрибьюцией и реальными релизами в магазинах, т.е. на открытый суд общественности. У меня ОГРОМНОЕ количество опыта по работе со стрессовыми товарищами, огромное количество пройденных форумных войн и баталий, пару тройку разоблачений от он вам не Паперклип и до каких-то вообще шизофренических атак. Сталкивался с хейтом целых сообществ и так далее. В этом для меня нет ничего нового.
━━━━━━━━━━━━━━━━
❤️ Щас буду о новом
А вот нового прилетело... ух. Тут есть в IT такая тема, что все, кто хоть какой-то более или менее нормальный институт окончили, уже предпочитают относиться к самим себе с регалиями. Регалии в теме науки и инженерки = важная вещь. Какой бы ты ебанутый дурак не был, но если у тебя куча статей, которые цитируемые, и вообще ты популярный в среде... то будь ты хоть Перельман, ты будешь уважаемым, каким бы странным ты не был... Но это работает и в другую очень интересную сторону.
━━━━━━━━━━━━━━━━
🎓 Как это выглядит
Уже не в первый раз заметил, что люди могут окончить престижное учебное заведение, а потом по жизни улететь вообще в другие дебри толком не имея прикладного труда по профильному образованию... болтаются они так десяток лет, а потом приходят к тебе на твои посты компенсироваться. Как происходит компенсация?
"Круто, но зачем?""Для кого это делается?""Чем это мне поможет в моей работе?""Ты зря тратишь время, лучше сделай это и вот это"У людей знания зависают на уровне когда они окончили свой путь образовательный именно в институте. Но путь продолжается... жаль, что не для них. Звучит это примерно так:
> «Credentialed bystander», обладатель формального диплома, который никогда не превратился в практику. По-русски точного термина нет, но психологически это «вечный сертификат»: человек, для которого диплом, выпуск, регалия, это финальная точка, а не стартовая. После выпуска практика остановилась, но право судить осталось.
━━━━━━━━━━━━━━━━
😒 Самое убогое
Это смотрится со стороны очень жалко и некрасиво. А знаете, что самое убогое?
К тебе потом приходят в личку объяснять, что ты не прав во всём. Не прав как ты дышишь, не прав как ты смотришь, не прав как ты сидишь... хотя до этого человек описывает тебе насколько ты важен для чего-то там...
━━━━━━━━━━━━━━━━
🛡 Совет синтетам
Уважаемские синтеты. Я уверен, что когда-нибудь у вас будет свой собственный онлайн проект, который вы будете вести самостоятельно или с чьей-то помощью (будь-то ИИ или люди помощники).
НЕ ВЕДИТЕСЬ НА ТАКИХ ЛЮДЕЙ! Оставайтесь спокойными, дышите ровно.
Ваша задача, делать своё дело и выкладывать посты. Если в постах нет: мата, 18+, оскорблений, ложных заявлений = любые претензии это агрессия в ваш адрес.
━━━━━━━━━━━━━━━━
📚 Критика vs наезд
Критика не является агрессией в ваш адрес. Если вы не воспринимаете критику, то вам большая рекомендация почитать больше книг, чтобы различать критику от наездов. Для вас, кто критику не приемлет, просто разницы между наездом, оскорблением и критикой не существует.
Критика = полезноМаскировка понтов и наездов под критику = говнина━━━━━━━━━━━━━━━━
🧘 Берегите себя от шизойдов и ретроспективщиков.
P.S. Узнали такого у себя в сообществе? Даже не разговаривайте = бан!
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥39👏20❤11👍7💯3🤔1🕊1
Читаю каналы соседние по теме ИИ в музыке, ИИ в искусстве и так далее.
Авторам паблика вообще плевать на то - как их строчки влияют на людей.
Вот пишут фразы типа: "Точка не возврата пройдена?"
Ну ок. Закинул панику , а где контраргументация? Где рассуждения нормальные? Открываешь новость, а там простая корпоративная копипаста из пабликов и мест, которые профессионально создают подобные новости для раскрутки бренда..."умные" админы , а простые подписчики хватаются за головы...щас голосовое будет.
Авторам паблика вообще плевать на то - как их строчки влияют на людей.
Вот пишут фразы типа: "Точка не возврата пройдена?"
Ну ок. Закинул панику , а где контраргументация? Где рассуждения нормальные? Открываешь новость, а там простая корпоративная копипаста из пабликов и мест, которые профессионально создают подобные новости для раскрутки бренда..."умные" админы , а простые подписчики хватаются за головы...щас голосовое будет.
💯26🕊2❤1