Техножнец

🔬 PromeTorch на Эльбрус 8C2: 10 LLM, ускорение ×3-6 над llama.cpp

Закончил отчёт по запуску современных языковых моделей на отечественном процессоре.

━━━━━━━━━━━━━━━━

🖥 Платформа

Эльбрус-8С2 от МЦСТ — VLIW-процессор, 8 ядер на 1.5 ГГц, 4 канала DDR4 по NUMA-узлам, 125 ГБ. Своя система команд e2k, компилятор LCC, SIMD через интринсики. Никакого x86, никакого AVX2. Из готового — проприетарная EML для линейной алгебры.

━━━━━━━━━━━━━━━━

📜 Что было до

Один публичный порт LLM — llama.cpp-e2k от alexmihalyk23. Только legacy: LLaMA-1, Vicuna, Pygmalion (≤2023). qwen3, gemma3, phi3 (2024-2025) не поддерживаются.

Smart Engines делают CV для Эльбруса (паспорт, томография), но не LLM. На Habr 752138 в 2023 показывали Stable Diffusion на 8СВ, но через GPU-fallback на Radeon.

Современные LLM на CPU Эльбруса публично не запускались никем.

━━━━━━━━━━━━━━━━

⚙️ Что сделано

PromeTorch — header-only C++17 inference под e2k, ~95 тыс. строк. GGUF Q4_K/Q5_K/Q6_K/Q8_0, zero-copy mmap, GEMV, RoPE (NORM/NeoX), KV-cache, attention с GQA и SWA, 4-процессное тензорное распараллеливание через POSIX shared memory AllReduce, speculative decode.

Запущены 10 моделей 2024-2025: qwen3 1.7B/4B/8B/14B, qwen2.5-7B, mistral-7B, gemma3-4B, phi3.5-mini, llama3-8B, deepseek-coder-7B.

━━━━━━━━━━━━━━━━

📊 Цифры на 8С2

qwen3-1.7B   TP-4   17.1 ток/с   ×6.3
qwen3-4B     TP-4   10.9 ток/с   ×6.0
gemma3-4B    TP-4    6.7 ток/с   ×5.2
mistral-7B   TP-4    8.5 ток/с   ×4.9
phi3.5-mini  TP-4    6.4 ток/с   ×3.1

Сравнение честное — то же железо, baseline llama.cpp v3 с numactl --interleave=all, 32 потока. Русский сохранён везде, qwen3-4B/14B держат CoT.

━━━━━━━━━━━━━━━━

🚀 Побочное

NUMA-aware распределение поднимает EML matmul с 324 до 1840 GFLOPS — 92% теоретического пика DDR4. Прирост ×5.7 за счёт node-local привязки.

━━━━━━━━━━━━━━━━

🤝 Сотрудничество

Работу разобрал Константин Трушкин (МЦСТ). Предложил расширить в архитектурное моделирование: снять профиль и через симуляцию посчитать эффект от введения в будущие Эльбрусы нативной арифметики int4/int8 и спецопераций.

Отдельный трек — сравнение классики с KAN-нейронами (Колмогоров-Арнольд) на той же задаче. По KAN у меня отдельная линия работ.

━━━━━━━━━━━━━━━━

📦 Открытое

github.com/barometech/PromeTorch

Open source, без проприетарного кроме EML (есть SIMD-fallback с ~30% деградацией). Скрипты регрессии, флаги воспроизведения, 10 GGUF верифицированы.

━━━━━━━━━━━━━━━━

Спасибо МЦСТ за платформу, alexmihalyk23 за предыдущий порт, авторам Habr 752138 за точку отсчёта. Отдельно Константину Трушкину.

🦆

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
На СБП? В личку: ЛИЧКА

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍49🔥30👏6❤4❤‍🔥2⚡1🤔1🕊1

2.15K viewsedited 08:57