Заместители

Смотрим "под правильным углом": развитие локальных LLM и еще один скачок качества топовых LLM

За последние 2 недели произошло сразу два интересных анонса: TurboQuant от Google и Bonsai от PrismML. Они бьют в самую больную точку современных LLM: дефицит железа.

GPU больше не главная проблема

Последние несколько лет все боялись, что закончатся GPU. Проклятые майнеры и ИИ лишили порядочных геймеров видеокарт. Но теперь ситуация дополнилась еще и дефицитом оперативы и даже обычной SSD памяти!

В части ИИ на то есть две основные причины:
1. Сами модели стали огромными и их веса занимают сотни гигабайт.
2. Растет контекстное окно моделей — а это напрямую влияет на объем кеширования Key-Values внутри "механизма внимания" (лучше всех, что это такое, объяснили HF).

Например, смотрим на Qwen3.5-397B-A17B, которая сравнима с GPT 5.2 и Gemini 3 Pro по бенчмаркам. Так вот эта скотина жрет 810 GB RAM+VRAM (оперативная память).

Ну и представьте, сколько инстансов моделей запущено в датацентрах, чтобы обслуживать весь мир всем разнообразием моделей 👀

Ситуация усложняется тем, что закон масштабирования моделей все еще продолжает работать — больше параметров в LLM — лучше ее перфоманс.

Корпорации начали решать эти проблемы

Делать это начали уже давно через квантование. Простыми словами любое квантование — это сжатие вектора (вектора — это главный строительный кирпичик, из которого строится и которым оперирует любая LLM). Меньше длина чисел вектора = меньше памяти требуется для хранения и запуска модели. Проблема в том, что это несет за собой потери качества.

Собственно об этом и были новости за последние 2 недели.

Во-первых, Caltech и PrismML разработали подход по сжатию самого веса модели (чекпоинтов) — Bonsai. Они сжали Qwen3-8B весом в 16.38 GB в 14 раз, до 1.15 GB. Точность модели в среднем по бенчмаркам упала при этом всего на 11%. То есть невероятно выгодный трейдофф!
Как? 1-битное представление всех весов модели вместо оригинального 16-битного. Но как именно они сохраняют такую точность при таком сжатии — технологию не раскрывают. Кстати, вы можете сами потестить эту модель прямо на вашем айфоне в Locally AI.

Во-вторых, TurboQuant от Google. Гуглойды придумали как сжимать KV кеш. Так они решают вторую проблему с растущим контекстным окном. Процесс состоит из 2х этапов:
1. PolarQuant — трансформация длинных векторов координат в комбинацию радиус + угол. Это старый математический трюк. Но они его дополнили другим старым трюком: добавили рандомный поворот вектора. Не вдаваясь в детали это нужно для того, чтобы сгладить всплески в данных и избежать неверных округлений. Именно неверные округления в данном подходе раньше приводили к серьезной деградации качества — теперь нет.
2. QJL (Quantized Johnson Lindenstrauss) трансформация направлена на исправление остаточных ошибок первого этапа. Тут чисто линейная алгебра, простыми словами уже фиг объяснишь 🤙Читайте источник, если хотите загрузиться.
На выходе — при квантизации до 3.5 битов — снижение кеша в 6 раз и нулевые потери качества на бенчмарках по работе с длинным контекстом.

Решали большую проблему, а решат еще и "маленькую"

Понятно, что главным образом корпорации хотят снизить потребление железа на вычисления. Вдогонку хотят еще и делать модельки типа новой Gemma 4, которые будут ставиться в edge устройства.

Но побочный неизбежный эффект — в обозримом будущем мы увидим у себя на ПК локальные "маленькие" модели с качеством не сильно хуже текущих топовых моделей. Если уже сейчас вес моделей можно снижать в 14 раз, а размер кеша в 6 раз, то это значит что на Макбук можно уже поставить модельку, которая в оригинале имеет примерно 80-100B параметров.

При этом передовые LLM, похоже, сделают очередной скачок в качестве. Потому что "освободившуюся" память от квантования корпорации используют не на горизонтальное масштабирование текущих моделей, а на то, чтобы выдавить еще мощи из закона масштабирования LLM. То есть обучат модели в 10 раз больше, квантизируют их без потери качества и запустят на текущем железе в погоне за AGI.

#ИИстатья

Заместители

Please open Telegram to view this post