Sparse Hash AI
135 subscribers
154 photos
263 videos
3 files
355 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling
https://www.alphaxiv.org/overview/2602.07374

TernaryLM представляет языковую модель со 132 миллионами параметров, обученную нативно с 1-битным троичным квантованием и адаптивным послойным масштабированием. Этот подход позволил сократить объем памяти в 2,4 раза и объем хранилища в 3,3 раза по сравнению с полноточной базовой моделью, сохраняя при этом конкурентоспособную производительность в задачах языкового моделирования и последующих задачах.

Исследование демонстрирует, что трансформер со 132 миллионами параметров может достигать конкурентоспособной производительности, используя веса, ограниченные всего тремя значениями: {-1, 0, +1}. Это представляет собой фундаментальное отступление от общепринятого мнения о требованиях к точности для связного понимания языка.

Подход TernaryLM сосредоточен на нативном обучении с учетом квантования, где ограничения по экстремальной точности накладываются на протяжении всего процесса обучения, а не применяются постфактум к предварительно обученной модели.