Data Portal | DS & ML

lucebox-hub

Потребительские видеокарты на самом деле обладают достаточным аппаратным потенциалом; проблема в том, что универсальные фреймворки теряют значительную часть производительности на неэффективных накладных расходах. Lucebox раскрывает этот потенциал за счёт точечной оптимизации через ручную реализацию вычислительных ядер, позволяя даже RTX 3090 образца 2020 года достигать энергоэффективности на уровне последних чипов Apple.

Lucebox — проект по ручной оптимизации инференса больших языковых моделей на потребительских GPU, в котором на данный момент открыты два ключевых результата. Megakernel нацелен на гибридную модель DeltaNet/Attention Qwen3.5-0.8B, объединяя вычисления, ранее разбросанные по ~100 вызовам CUDA-ядер, в один запуск. На RTX 3090 скорость prefill достигает 37 800 токенов/с, decode — 413 токенов/с, энергоэффективность — 1.87 токена/Дж, сопоставимо с Apple M5 Max; при снижении энергопотребления с 350W до 220W падение скорости всего 5%, при этом энергоэффективность почти удваивается.

DFlash впервые реализует спекулятивное декодирование в подходе GGUF на одной видеокарте. Для Qwen3.5-27B при квантизации Q4_K_M и использовании BF16 для draft-модели достигается 129.5 токенов/с по HumanEval на RTX 3090 — это в 3.43 раза быстрее чистого авторегрессионного декодирования, при этом для контекста 128K требуется не более 24 ГБ памяти.

Основная сложность — ограничения по памяти: целевая модель, draft-модель и промежуточные состояния дерева верификации DDTree должны одновременно помещаться в 24 ГБ, что потребовало переписать загрузчик GGUF и три CUDA-ядра для операций над деревом поверх ggml. Весь код проекта распространяется по лицензии MIT, есть подробная документация, позволяющая воспроизвести бенчмарки напрямую.

https://github.com/Luce-Org/lucebox-hub

👉

@DataSciencegx

Please open Telegram to view this post