И сразу в дополнение, обновлённый вариант s1 под названием s1.1, обученный на тех же самых 1к вопросов, но с трейсами DeepSeek-R1 взамен Gemini, даёт ещё лучшее качество. Трейсы R1 гораздо более разнообразны по длине.
https://x.com/Muennighoff/status/1889310803746246694
https://x.com/Muennighoff/status/1889310803746246694
Telegram
gonzo-обзоры ML статей
s1: Simple test-time scaling
Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2501.19393
Репа: https://github.c…
Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2501.19393
Репа: https://github.c…
👍17👀3🎉2
Хочу напомнить, что если вам нравится что я делаю и вы хотите поддержать мой проект, есть возможность это сделать.
Патреон: https://patreon.com/GonzoML
Boosty: https://boosty.to/gonzoml
Substack: https://gonzoml.substack.com/
Cпасибо тем, кто уже это делает! Это помогает мне быть более up-to-date, оплачивая разные подписки и кредиты сервисам.
Патреон: https://patreon.com/GonzoML
Boosty: https://boosty.to/gonzoml
Substack: https://gonzoml.substack.com/
Cпасибо тем, кто уже это делает! Это помогает мне быть более up-to-date, оплачивая разные подписки и кредиты сервисам.
Patreon
Get more from GonzoML on Patreon
On modern ML in simple words
6❤35👍14🗿3👎1
gonzo-обзоры ML статей pinned «Хочу напомнить, что если вам нравится что я делаю и вы хотите поддержать мой проект, есть возможность это сделать. Патреон: https://patreon.com/GonzoML Boosty: https://boosty.to/gonzoml Substack: https://gonzoml.substack.com/ Cпасибо тем, кто уже это…»
Интересное интервью с Джеффом Дином и Ноамом Шазиром. Вряд ли этих людей нужно представлять.
https://youtu.be/v0gjI__RyCY?si=iCmm5tXkonFehIZk
https://youtu.be/v0gjI__RyCY?si=iCmm5tXkonFehIZk
YouTube
Jeff Dean & Noam Shazeer — 25 years at Google: from PageRank to AGI
This week I welcome two of the most important technologists in any field. Jeff Dean is Google's Chief Scientist, and through 25 years at the company, has worked on basically the most transformative systems in modern computing: from MapReduce, BigTable, Tensorflow…
👀14❤11
Что-то любопытное.
https://ai.meta.com/blog/brain-ai-research-human-communication/
"For our first study, we use both MEG and EEG—non-invasive devices that measure the magnetic and electric fields elicited by neuronal activity—to record 35 healthy volunteers at BCBL while they type sentences. We then train a new AI model to reconstruct the sentence solely from the brain signals. On new sentences, our AI model decodes up to 80% of the characters typed by the participants recorded with MEG, at least twice better than what can be obtained with the classic EEG system."
А тут как будто базу под LCM (https://t.me/gonzo_ML/3149) подвели:
"To explore how the brain transforms thoughts into intricate sequences of motor actions, we used AI to help interpret the MEG signals while participants typed sentences. By taking 1,000 snapshots of the brain every second, we can pinpoint the precise moment where thoughts are turned into words, syllables, and even individual letters. Our study shows that the brain generates a sequence of representations that start from the most abstract level of representations—the meaning of a sentence—and progressively transform them into a myriad of actions, such as the actual finger movement on the keyboard.
Importantly, the study also reveals how the brain coherently and simultaneously represents successive words and actions. Our results show that the brain uses a ‘dynamic neural code’—a special neural mechanism that chains successive representations while maintaining each of them over long time periods."
https://ai.meta.com/blog/brain-ai-research-human-communication/
"For our first study, we use both MEG and EEG—non-invasive devices that measure the magnetic and electric fields elicited by neuronal activity—to record 35 healthy volunteers at BCBL while they type sentences. We then train a new AI model to reconstruct the sentence solely from the brain signals. On new sentences, our AI model decodes up to 80% of the characters typed by the participants recorded with MEG, at least twice better than what can be obtained with the classic EEG system."
А тут как будто базу под LCM (https://t.me/gonzo_ML/3149) подвели:
"To explore how the brain transforms thoughts into intricate sequences of motor actions, we used AI to help interpret the MEG signals while participants typed sentences. By taking 1,000 snapshots of the brain every second, we can pinpoint the precise moment where thoughts are turned into words, syllables, and even individual letters. Our study shows that the brain generates a sequence of representations that start from the most abstract level of representations—the meaning of a sentence—and progressively transform them into a myriad of actions, such as the actual finger movement on the keyboard.
Importantly, the study also reveals how the brain coherently and simultaneously represents successive words and actions. Our results show that the brain uses a ‘dynamic neural code’—a special neural mechanism that chains successive representations while maintaining each of them over long time periods."
Meta AI
Using AI to decode language from the brain and advance our understanding of human communication
Today, in collaboration with the Basque Center on Cognition, Brain and Language, we’re excited to share two breakthroughs that show how AI can help advance our understanding of human intelligence, leading us closer to AMI.
🔥15🤯10❤4👍3🤔2
Forwarded from Нейроинтерфейсы (Sergei Shishkin)
Тут люди даже не смотрят картинки или слушают речь, как в предыдущих работах того же Жана-Реми Кинга, а печатают на клавиатуре. Кроме подготовительной премоторной активности, каждое движение стимулирует рецепторы в мышцах и суставах, а момент нажатия на клавишу даёт особенно чёткую стимуляцию кожи, и в коре возникают очень чёткие паттерны.
Правда, на этом графике они типа утверждают, что якобы декодируют сугубо лингвистические репрезентации, но тут надо разбираться, насколько хорошо они могли их отделить от простой подготовки движений (перед любым произвольным движением возникает так называемый премоторный потенциал и соответствующие вариации в магнитных полях). Эти паттерны во времени организованы в строгом соответствии с письменным текстом, так что создаются все условия для декодирования.
Жан-Реми, который всем этим руководит в забаненной в РФ Мете (на предыдущие работы с картинками и речью в их посте есть ссылки), довольно продвинутый и наверняка понимает, что это никак не приближает к "чтению мыслей". Но Мета уже давно вынуждена цепляться за соломинки в этой теме, после феерического провала Цукерберга, восемь лет назад пообещавшего, что в скором времени все смогут печатать в ФБ силой мысли со скоростью 100 слов в минуту. Его тогда развели, пообещав быстро сделать очень нереалистичную суперпупер неинвазивную технологию (и не получилось вообще ничего).
Думаю, Жана-Реми интересует не технология сама по себе, а возможность покопаться в мозгах. В названии препринта акцент сделан именно на этом: How a Hierarchy of Neural Dynamics Supports Language Production.
В общем, работа в любом случае должна быть интересной и её стоит почитать внимательно (еще бы время на это найти... надеюсь, по крайней мере подписчики канала смогут это сделать...).
Lévy J, d'Ascoli S, Rapin J, Alario F, Bourdillon P, Pinet S, King JR. From Thought to Action: How a Hierarchy of Neural Dynamics Supports Language Production. arXiv, 2025 Feb 11 https://doi.org/10.48550/arXiv.2502.07429
Правда, на этом графике они типа утверждают, что якобы декодируют сугубо лингвистические репрезентации, но тут надо разбираться, насколько хорошо они могли их отделить от простой подготовки движений (перед любым произвольным движением возникает так называемый премоторный потенциал и соответствующие вариации в магнитных полях). Эти паттерны во времени организованы в строгом соответствии с письменным текстом, так что создаются все условия для декодирования.
Жан-Реми, который всем этим руководит в забаненной в РФ Мете (на предыдущие работы с картинками и речью в их посте есть ссылки), довольно продвинутый и наверняка понимает, что это никак не приближает к "чтению мыслей". Но Мета уже давно вынуждена цепляться за соломинки в этой теме, после феерического провала Цукерберга, восемь лет назад пообещавшего, что в скором времени все смогут печатать в ФБ силой мысли со скоростью 100 слов в минуту. Его тогда развели, пообещав быстро сделать очень нереалистичную суперпупер неинвазивную технологию (и не получилось вообще ничего).
Думаю, Жана-Реми интересует не технология сама по себе, а возможность покопаться в мозгах. В названии препринта акцент сделан именно на этом: How a Hierarchy of Neural Dynamics Supports Language Production.
В общем, работа в любом случае должна быть интересной и её стоит почитать внимательно (еще бы время на это найти... надеюсь, по крайней мере подписчики канала смогут это сделать...).
Lévy J, d'Ascoli S, Rapin J, Alario F, Bourdillon P, Pinet S, King JR. From Thought to Action: How a Hierarchy of Neural Dynamics Supports Language Production. arXiv, 2025 Feb 11 https://doi.org/10.48550/arXiv.2502.07429
arXiv.org
From Thought to Action: How a Hierarchy of Neural Dynamics...
Humans effortlessly communicate their thoughts through intricate sequences of motor actions. Yet, the neural processes that coordinate language production remain largely unknown, in part because...
👍20
Forwarded from Нейроинтерфейсы (Sergei Shishkin)
Нейроинтерфейсы
Тут люди даже не смотрят картинки или слушают речь, как в предыдущих работах того же Жана-Реми Кинга, а печатают на клавиатуре. Кроме подготовительной премоторной активности, каждое движение стимулирует рецепторы в мышцах и суставах, а момент нажатия на клавишу…
Впрочем, Алексей Осадчий обращает внимание на то, что в предобработке МЭГ использовались дефолтные параметры FIR фильтра пакета MNE, а они дают затекание информации из будущего. И, получается, этот анализ "иерархии" (в тч приведенная выше в репосте картинка) теряет всякий смысл...
🔥18🤔2
Снова про JAX.
Если моя книга “Deep Learning with JAX” (https://t.me/gonzo_ML/2926) для вас ещё не является достаточной мотивацией освоить этот продвинутый фреймворк, то вот вам ещё пара крутых свежих материалов:
The PyTorch developer's guide to JAX fundamentals
https://cloud.google.com/blog/products/ai-machine-learning/guide-to-jax-for-pytorch-developers
Короткий гайд по созданию модели для тех, кто привык к PyTorch и хочет сравнить. Пример использует новый Flax NNX API (писал про него в посте JAX things to watch for in 2025, https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025), но есть также и пример на более старом но всё ещё популярном Flax Linen API.
================================
How to Scale Your Model
A Systems View of LLMs on TPUs
https://jax-ml.github.io/scaling-book/
Это прям целая книга про скейлинг LLM на TPU. Содержит несколько секций:
1. All About Rooflines
https://jax-ml.github.io/scaling-book/roofline/
Объясняет, что такое roofline model (писал про неё когда-то давно тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664). Это безумно важно понимать для оптимизации ваших вычислений, не всё определяется флопсами, многие алгоритмы ограничены коммуникацией, в смысле пересылкой данных, не обязательно в распределённой системе, даже при неудачно организованном чтении из памяти можно оказаться в ситуации, когда ваш GPU/TPU используется лишь на 5% и до пиковых флопс как до Луны.
2. What Is a TPU?
https://jax-ml.github.io/scaling-book/tpus/
Объясняет, что такое TPU (про это я тоже писал ещё давно https://moocaholic.medium.com/hardware-for-deep-learning-part-4-asic-96a542fe6a81), что такое систолический массив, какие блоки есть внутри, как связываются ускорители в Pod, каковы характеристики разных TPU от v3 до v6e.
3. Sharded Matrices and How to Multiply Them
https://jax-ml.github.io/scaling-book/sharding/
Подробно разбирает как работает шардинг (разбиение вычислений больших тензоров по нескольким ускорителям). Параллелизация, Collective Operations -- всё тут. У меня в книге этому посвящена 8-я глава, а кроме неё есть глава 7 про более классический метод параллелизации (pmap) и приложение D про уже устаревшие экспериментальные подходы, которые тем не менее могут помочь лучше понять как мы пришли в текущую точку.
4. All the Transformer Math You Need to Know
https://jax-ml.github.io/scaling-book/transformers/
Вся основа трансформеров на уровне вычислений. Где какие операции, как считать флопсы и параметры, MoE, Gradient checkpointing, KV caching, Flash Attention.
5. How to Parallelize a Transformer for Training
https://jax-ml.github.io/scaling-book/training/
Обсуждение разных видов параллелизма на примере трансформера: data parallelism, fully-sharded data parallelism (FSDP), tensor parallelism, pipeline parallelism.
6. Training LLaMA 3 on TPUs
https://jax-ml.github.io/scaling-book/applied-training/
Как применить все эти знания к обучению реальной модели (Llama 3) на TPU v5p. Что такое Llama 3, как отшардить модель LLaMA 3-70B.
7. All About Transformer Inference
https://jax-ml.github.io/scaling-book/inference/
В чём особенности инференса для трансформеров, где боттлнеки, что с памятью, что с latency. MHA, MQA, GQA (про MLA ещё нет: https://t.me/gonzo_ML/3292). KV cache, распределение инференса по разным ускорителям, фазы инференса (prefill, generation), шардирование KV-кэша, _много_ оптимизаций инференса.
8. Serving LLaMA 3-70B on TPUs
https://jax-ml.github.io/scaling-book/applied-inference/
Как применить все эти знания к инференсу реальной модели, той же самой Llama 3-70B.
9. How to Profile TPU Programs
https://jax-ml.github.io/scaling-book/profiling/
Как профилировать код на TPU и искать боттлнеки. Как работает компилятор XLA, что такое HLO (я много это разбираю в главе 5 своей книги, про компиляцию), что такое JAX TPU profiler, Trace Viewer, Graph Viewer, как делать профилирование памяти.
10. Programming TPUs in JAX
https://jax-ml.github.io/scaling-book/jax-stuff/
Если моя книга “Deep Learning with JAX” (https://t.me/gonzo_ML/2926) для вас ещё не является достаточной мотивацией освоить этот продвинутый фреймворк, то вот вам ещё пара крутых свежих материалов:
The PyTorch developer's guide to JAX fundamentals
https://cloud.google.com/blog/products/ai-machine-learning/guide-to-jax-for-pytorch-developers
Короткий гайд по созданию модели для тех, кто привык к PyTorch и хочет сравнить. Пример использует новый Flax NNX API (писал про него в посте JAX things to watch for in 2025, https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025), но есть также и пример на более старом но всё ещё популярном Flax Linen API.
================================
How to Scale Your Model
A Systems View of LLMs on TPUs
https://jax-ml.github.io/scaling-book/
Это прям целая книга про скейлинг LLM на TPU. Содержит несколько секций:
1. All About Rooflines
https://jax-ml.github.io/scaling-book/roofline/
Объясняет, что такое roofline model (писал про неё когда-то давно тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664). Это безумно важно понимать для оптимизации ваших вычислений, не всё определяется флопсами, многие алгоритмы ограничены коммуникацией, в смысле пересылкой данных, не обязательно в распределённой системе, даже при неудачно организованном чтении из памяти можно оказаться в ситуации, когда ваш GPU/TPU используется лишь на 5% и до пиковых флопс как до Луны.
2. What Is a TPU?
https://jax-ml.github.io/scaling-book/tpus/
Объясняет, что такое TPU (про это я тоже писал ещё давно https://moocaholic.medium.com/hardware-for-deep-learning-part-4-asic-96a542fe6a81), что такое систолический массив, какие блоки есть внутри, как связываются ускорители в Pod, каковы характеристики разных TPU от v3 до v6e.
3. Sharded Matrices and How to Multiply Them
https://jax-ml.github.io/scaling-book/sharding/
Подробно разбирает как работает шардинг (разбиение вычислений больших тензоров по нескольким ускорителям). Параллелизация, Collective Operations -- всё тут. У меня в книге этому посвящена 8-я глава, а кроме неё есть глава 7 про более классический метод параллелизации (pmap) и приложение D про уже устаревшие экспериментальные подходы, которые тем не менее могут помочь лучше понять как мы пришли в текущую точку.
4. All the Transformer Math You Need to Know
https://jax-ml.github.io/scaling-book/transformers/
Вся основа трансформеров на уровне вычислений. Где какие операции, как считать флопсы и параметры, MoE, Gradient checkpointing, KV caching, Flash Attention.
5. How to Parallelize a Transformer for Training
https://jax-ml.github.io/scaling-book/training/
Обсуждение разных видов параллелизма на примере трансформера: data parallelism, fully-sharded data parallelism (FSDP), tensor parallelism, pipeline parallelism.
6. Training LLaMA 3 on TPUs
https://jax-ml.github.io/scaling-book/applied-training/
Как применить все эти знания к обучению реальной модели (Llama 3) на TPU v5p. Что такое Llama 3, как отшардить модель LLaMA 3-70B.
7. All About Transformer Inference
https://jax-ml.github.io/scaling-book/inference/
В чём особенности инференса для трансформеров, где боттлнеки, что с памятью, что с latency. MHA, MQA, GQA (про MLA ещё нет: https://t.me/gonzo_ML/3292). KV cache, распределение инференса по разным ускорителям, фазы инференса (prefill, generation), шардирование KV-кэша, _много_ оптимизаций инференса.
8. Serving LLaMA 3-70B on TPUs
https://jax-ml.github.io/scaling-book/applied-inference/
Как применить все эти знания к инференсу реальной модели, той же самой Llama 3-70B.
9. How to Profile TPU Programs
https://jax-ml.github.io/scaling-book/profiling/
Как профилировать код на TPU и искать боттлнеки. Как работает компилятор XLA, что такое HLO (я много это разбираю в главе 5 своей книги, про компиляцию), что такое JAX TPU profiler, Trace Viewer, Graph Viewer, как делать профилирование памяти.
10. Programming TPUs in JAX
https://jax-ml.github.io/scaling-book/jax-stuff/
🔥24👍10❤3
Как эффективно программировать на TPU в JAX. Параллелизация неявная (через компилятор и jit, ранее pjit), и явная (shard_map, ранее pmap и xmap).
11. Conclusions and Further Reading
https://jax-ml.github.io/scaling-book/conclusion/
Заключение и полезные ссылки по теме.
Уникальный ресурс. Highly recommended.
================================
Пользуясь случаем также скажу, что на DeepLearning.ai вышел короткий полуторачасовой курс “How Transformer LLMs Work” про внутренности трансформера, от нашего любимого Jay Alammar, а также Maarten Grootendorst.
https://www.deeplearning.ai/short-courses/how-transformer-llms-work/
Список тем хороший:
* Introduction
* Understanding Language Models: Laguage as a Bag-of-Words
* Understanding Language Models: (Word) Embeddings
* Understanding Language Models: Encoding and Decoding Context with Attention
* Understanding Language Models: Transformers
* Tokenizers
* Architectural Overview
* The Transformer Block
* Self-Attention
* Model Example
* Recent Improvements
* Mixture of Experts (MoE)
* Conclusion
11. Conclusions and Further Reading
https://jax-ml.github.io/scaling-book/conclusion/
Заключение и полезные ссылки по теме.
Уникальный ресурс. Highly recommended.
================================
Пользуясь случаем также скажу, что на DeepLearning.ai вышел короткий полуторачасовой курс “How Transformer LLMs Work” про внутренности трансформера, от нашего любимого Jay Alammar, а также Maarten Grootendorst.
https://www.deeplearning.ai/short-courses/how-transformer-llms-work/
Список тем хороший:
* Introduction
* Understanding Language Models: Laguage as a Bag-of-Words
* Understanding Language Models: (Word) Embeddings
* Understanding Language Models: Encoding and Decoding Context with Attention
* Understanding Language Models: Transformers
* Tokenizers
* Architectural Overview
* The Transformer Block
* Self-Attention
* Model Example
* Recent Improvements
* Mixture of Experts (MoE)
* Conclusion
Telegram
gonzo-обзоры ML статей
Ура! Моя книга “Deep Learning with JAX” (в девичестве "JAX in Action") вышла в печать! Я только что получил свои бумажные копии 🙂
https://www.manning.com/books/deep-learning-with-jax
Для тех, кто не следил, JAX -- это питоновская библиотека для высоко…
https://www.manning.com/books/deep-learning-with-jax
Для тех, кто не следил, JAX -- это питоновская библиотека для высоко…
🔥22👍4
Когда матрёшки (https://t.me/gonzo_ML/2037) не дают покоя!
Telegram
gonzo-обзоры ML статей
🪆Matryoshka Representation Learning
Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi
Статья: https://arxiv.org/abs/2205.13147
Код:…
Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, Ali Farhadi
Статья: https://arxiv.org/abs/2205.13147
Код:…
😁4
Forwarded from КПД
Matryoshka Quantization
[Статья]
[Код есть, но мы вам его не покажем]
Введение
Большинство методов квантизации готовят модель в некоторой заданной битности, и, если хочется иметь квантизованные модели разной степени сжатия, приходится прогонять алгоритм несколько раз и хранить где—то всю полученную пачку.
Команда из Глубокого Разума 🧠 на днях выкатила статейку по квантизации с примечательным названием Matryoshka Quantization 🪆, которая за один присест готовит квантизованные модельки в 2,4 и 8 бит.
Примечательно, что один из авторов, Kusupati, ранее публиковал другую работу про матрешки — Matryoshka Representation Learning.
[Статья]
[Код есть, но мы вам его не покажем]
Введение
Большинство методов квантизации готовят модель в некоторой заданной битности, и, если хочется иметь квантизованные модели разной степени сжатия, приходится прогонять алгоритм несколько раз и хранить где—то всю полученную пачку.
Команда из Глубокого Разума 🧠 на днях выкатила статейку по квантизации с примечательным названием Matryoshka Quantization 🪆, которая за один присест готовит квантизованные модельки в 2,4 и 8 бит.
Примечательно, что один из авторов, Kusupati, ранее публиковал другую работу про матрешки — Matryoshka Representation Learning.
❤🔥19❤2
Forwarded from КПД
Метод
MatQuant по постановке ,поверх оптимизируемых методов квантизации, с обучаемыми непрерывными или дискретными параметрами.
Основная идея работы в том, что для целочисленных типов данных отстругивая младшие биты от представления с максимальной бытностью, возможно получать приближения разной точности, вложенные друг в друга, как матрешка.
Но если просто огрублять, скажем , int8 квантизацию, работает не очень, поэтому предлагается совместно оптимизировать разные битности одновременно в одном батче с разными весами.
MatQuant применяют поверх OmniQuant, в котором оптимизируются скейлы и biasы в квантизации через поблочную дистилляцию, и QAT, которая суть просто обучение (с кроссэнтропийным лоссом) с STE через недифференцируемую операцию квантизации.
Эксперименты
Метод валидируют преимущественно на Gemma 2 (2b и 9b) моделях и Мистрале 7b. Полагаю, что 🦙 и Квены не рассматривают из политических соображений (негоже поганых парнокопытных от Меты лапать, как и китайскую продукцию).
OmniQuant оптимизируют на 10, 20M токенах из C4, QAT на 100 M токенах. Причем в большинстве экспериментов квантизуют только FFN.
Качество оценивают по перплексии и 0—shots на lm-eval.
Наивное стругание из высокой битности работает сильно плохо на 2 битах, оптимизация под конкретную битность получше (когда храним много моделей), но все равно не очень, предложенный подход еще чуть получше.
Просадки довольно значительные — 13, 15% для 2b, 6-12% для 9b Gemma 2 модели. Если бы квантизовались все слои, 2 бита были бы Парето—оптимальными (ибо точность квантизованной 9b модели равна несжатой 2b), но, увы, нет.
Полагаю, что подобный результат можно выжать более дешевыми QuIP (без решетки) и 1—мерным HIGGS, как и EfficientQAT.
В ablation показывают, что совместная оптимизация в разными битностями накидывает немного в качестве. Веса лоссов при разных битностых перебирают по сетке.
При квантизации Attention слоев метод тоже лучше бейзлайнов, но просадки становятся еще значительнее с 74 до 47% (остальные методы работают чуть лучше рандома в 2 битах).
Выводы
Название работы красивое, и мотивация хорошая — но результаты все же не слишком впечатляют. Также утверждение, что они первые, кто об этом задумался, не соответствует действительности — была такая работа Any Precision LLM (Oral прошлого ICLR), где разные битности получали через SqueezeLLM. Кроме того, вложенные представления разной точности можно получать через Residual Quantization.
MatQuant по постановке ,поверх оптимизируемых методов квантизации, с обучаемыми непрерывными или дискретными параметрами.
Основная идея работы в том, что для целочисленных типов данных отстругивая младшие биты от представления с максимальной бытностью, возможно получать приближения разной точности, вложенные друг в друга, как матрешка.
Но если просто огрублять, скажем , int8 квантизацию, работает не очень, поэтому предлагается совместно оптимизировать разные битности одновременно в одном батче с разными весами.
MatQuant применяют поверх OmniQuant, в котором оптимизируются скейлы и biasы в квантизации через поблочную дистилляцию, и QAT, которая суть просто обучение (с кроссэнтропийным лоссом) с STE через недифференцируемую операцию квантизации.
Эксперименты
Метод валидируют преимущественно на Gemma 2 (2b и 9b) моделях и Мистрале 7b. Полагаю, что 🦙 и Квены не рассматривают из политических соображений (негоже поганых парнокопытных от Меты лапать, как и китайскую продукцию).
OmniQuant оптимизируют на 10, 20M токенах из C4, QAT на 100 M токенах. Причем в большинстве экспериментов квантизуют только FFN.
Качество оценивают по перплексии и 0—shots на lm-eval.
Наивное стругание из высокой битности работает сильно плохо на 2 битах, оптимизация под конкретную битность получше (когда храним много моделей), но все равно не очень, предложенный подход еще чуть получше.
Просадки довольно значительные — 13, 15% для 2b, 6-12% для 9b Gemma 2 модели. Если бы квантизовались все слои, 2 бита были бы Парето—оптимальными (ибо точность квантизованной 9b модели равна несжатой 2b), но, увы, нет.
Полагаю, что подобный результат можно выжать более дешевыми QuIP (без решетки) и 1—мерным HIGGS, как и EfficientQAT.
В ablation показывают, что совместная оптимизация в разными битностями накидывает немного в качестве. Веса лоссов при разных битностых перебирают по сетке.
При квантизации Attention слоев метод тоже лучше бейзлайнов, но просадки становятся еще значительнее с 74 до 47% (остальные методы работают чуть лучше рандома в 2 битах).
Выводы
Название работы красивое, и мотивация хорошая — но результаты все же не слишком впечатляют. Также утверждение, что они первые, кто об этом задумался, не соответствует действительности — была такая работа Any Precision LLM (Oral прошлого ICLR), где разные битности получали через SqueezeLLM. Кроме того, вложенные представления разной точности можно получать через Residual Quantization.
❤9👍2🔥1