Refusal in Language Models Is Mediated by a Single Direction
хотел написать какое-то смешное вступление про, как сейчас забавно обходить можно меры защиты против ЛЛМ и генерить что-то вредное, опасное и всякое такое; и какой интересной и важной задачей является отказ в генерации на такие запросы. но описание вступления - уже вступление
так вот авторы, в свою очередь, задались вопросом - а можно ли на внутреннем уровне модели отличать вредоносные запросы от безопасных? как оказывается, да. если по аналогии с ворд2век свойством Россия - Москва + Париж = Франция поиграть с активациями слоев, то можно найти вектор, который описывает понятие вредоносности - через разницу усредненных векторов активаций вредных и обычных промптов
добавляют/вычитают этот вектор к активациям - и реально работает, при том (почти) безотказно и не влияет на остальные свойства модели в генерации связного, релевантного, серо-буро-малинового текста
в качестве евала, является ли промпт безопасным (safety_score), использовали затюненную на это дело лламу чтобы результаты были как можно точнее, в качестве метрики использовали log-odds ratio от ее аутпутов. так же считали, отказывалась ли модель отвечать (refusal_score), потому что бывают сценарии, когда модель не отказывается ответить, но при этом ниче опасного не выводит
но добавлять постоянно вектор к активациям не оч удобно. авторы пошли дальше и сформулировали ортогонализацию весов с помощью этого вектора → убираем фактор вредосности из самих параметров и модель начинает отказываться от запросов-плохишей. по метрикам и скейлу моделек выглядит все очень вкусно и появляется желание самому такое заимплементить в своих задачах (потому что код есть, но для такой идеи негромоздким его сделать вряд ли возможно)
при том один вектор отказа от генерации вреда можно найти не только для чат-моделей, но и для обычных лм моделей ⇒ это больше относится к понятию языка в общем и/или пространству параметров, семантическому пространству или чему-либо еще. на практике можно спекулировать, что еще очень много таких векторов можно найти для желаемых целей (и этого будет достаточно для изменения генерации в нужную сторону)
но, несмотря на то, что добавление такой ортогонализации (вроде наверянка) не влияет на другие способности ЛЛМок и напрямую помогает с реджектом вредоносных запросов, если задать мета-вопросы, какие промпты нужно принять/отклонить, начинаются какие-то обтекаемые и непоследовательные ответы (что оптимизировали, по тому результат и улучшился, а не прибавилось понимание модели о понятии вреда в более сложных рассуждениях)
👀LINK
хотел написать какое-то смешное вступление про, как сейчас забавно обходить можно меры защиты против ЛЛМ и генерить что-то вредное, опасное и всякое такое; и какой интересной и важной задачей является отказ в генерации на такие запросы. но описание вступления - уже вступление
так вот авторы, в свою очередь, задались вопросом - а можно ли на внутреннем уровне модели отличать вредоносные запросы от безопасных? как оказывается, да. если по аналогии с ворд2век свойством Россия - Москва + Париж = Франция поиграть с активациями слоев, то можно найти вектор, который описывает понятие вредоносности - через разницу усредненных векторов активаций вредных и обычных промптов
добавляют/вычитают этот вектор к активациям - и реально работает, при том (почти) безотказно и не влияет на остальные свойства модели в генерации связного, релевантного, серо-буро-малинового текста
в качестве евала, является ли промпт безопасным (safety_score), использовали затюненную на это дело лламу чтобы результаты были как можно точнее, в качестве метрики использовали log-odds ratio от ее аутпутов. так же считали, отказывалась ли модель отвечать (refusal_score), потому что бывают сценарии, когда модель не отказывается ответить, но при этом ниче опасного не выводит
но добавлять постоянно вектор к активациям не оч удобно. авторы пошли дальше и сформулировали ортогонализацию весов с помощью этого вектора → убираем фактор вредосности из самих параметров и модель начинает отказываться от запросов-плохишей. по метрикам и скейлу моделек выглядит все очень вкусно и появляется желание самому такое заимплементить в своих задачах (потому что код есть, но для такой идеи негромоздким его сделать вряд ли возможно)
при том один вектор отказа от генерации вреда можно найти не только для чат-моделей, но и для обычных лм моделей ⇒ это больше относится к понятию языка в общем и/или пространству параметров, семантическому пространству или чему-либо еще. на практике можно спекулировать, что еще очень много таких векторов можно найти для желаемых целей (и этого будет достаточно для изменения генерации в нужную сторону)
но, несмотря на то, что добавление такой ортогонализации (вроде наверянка) не влияет на другие способности ЛЛМок и напрямую помогает с реджектом вредоносных запросов, если задать мета-вопросы, какие промпты нужно принять/отклонить, начинаются какие-то обтекаемые и непоследовательные ответы (что оптимизировали, по тому результат и улучшился, а не прибавилось понимание модели о понятии вреда в более сложных рассуждениях)
👀LINK
Baba Is AI: Break the Rules to Beat the Benchmark
обучение с подкреплением, пожалуй, ближе всех приближено к концепции того, а как именно обучается человек (в детском возрасте) сквозь trial-and-error, без супервайзд лейблов. однако область молода, и в основном алгоритмы стараются решить somewhat несложные задачи (одну или несколько) в рамках зафиксированных правил. однако как писал Айзек Азимов:
и человек был бы не человек, если бы не взаимодействовал с миром, одновременно меняя правила игры. вот и авторы решили сделать такую же сложную среду
что же пытались отследить?
- возможность распознать, что можно взаимодействовать с определенными объектами и тем самым менять правила игры, чтобы получить в конце золотую морковку
- игнорировать отвлекающие факторы, которые не помогут дойти до конечной цели
- совмещать текст с визуальной репрезентацией
- комбинировать предыдущие правила для достижения новой цели
а реализовано это через 2д карту, где на некоторых блоках есть слова → составляя комбинацию слов “door is win” можно получить награду, достигнув двери (иначе никак). или же сломав кубики со словами “wall is stop” стены более не становятся преградой и можно жоско хаслить и выигрывать
интересное и нетривиально сочетание идей вылилось в такой метод проверки умноты модели, котоый точно запомнится и поможет в развитии области
статья читается быстро и свежо, даже по диагонали можно четко понять, что именно делали авторы и что получили
👀LINK
обучение с подкреплением, пожалуй, ближе всех приближено к концепции того, а как именно обучается человек (в детском возрасте) сквозь trial-and-error, без супервайзд лейблов. однако область молода, и в основном алгоритмы стараются решить somewhat несложные задачи (одну или несколько) в рамках зафиксированных правил. однако как писал Айзек Азимов:
Your assumptions are your windows on the world. Scrub them off every once in a while, or the light won’t come in.
и человек был бы не человек, если бы не взаимодействовал с миром, одновременно меняя правила игры. вот и авторы решили сделать такую же сложную среду
что же пытались отследить?
- возможность распознать, что можно взаимодействовать с определенными объектами и тем самым менять правила игры, чтобы получить в конце золотую морковку
- игнорировать отвлекающие факторы, которые не помогут дойти до конечной цели
- совмещать текст с визуальной репрезентацией
- комбинировать предыдущие правила для достижения новой цели
а реализовано это через 2д карту, где на некоторых блоках есть слова → составляя комбинацию слов “door is win” можно получить награду, достигнув двери (иначе никак). или же сломав кубики со словами “wall is stop” стены более не становятся преградой и можно жоско хаслить и выигрывать
интересное и нетривиально сочетание идей вылилось в такой метод проверки умноты модели, котоый точно запомнится и поможет в развитии области
статья читается быстро и свежо, даже по диагонали можно четко понять, что именно делали авторы и что получили
👀LINK
Multi-turn Reinforcement Learning from Preference Human Feedback
в основном сейчас ресерч в алайменте происходит на предположении, что нужно предоставить оптимальный ответ модели в моменте, при том контекст фиксирован и далее не будет влиять на задачу. справедливо, но не все практические задачки удовлетворяют такому. вернее даже меньшинство - если взять тот же пример чат-бот ассистента, то тут все поломается, ибо в начале диалога вряд ли возможно будет моментально дать оптимальный ответ из-за недостатка информации
сюда приходит идея мульти-терна: предположения о том, что часто действовать оптимально не получается и надо выдать настолько хороший аутпут в моменте (который необязательно будет решать поставленную промптом таску), что быстрее приведет к оптимальному результату *в целом от диалога*
авторы формулируют свою теорию, которая хорошо сводится к более-менее привычным Q, V-value функциям из рл (и так же уже из алаймента). только тут они зависят от двух политик - которую тюнят и SFT - при том первой надо выступать лучше на данном таймстепе референсной модели, которая имеет доступ к контексту с самого начала и вообще негарантированно проходит через тот стейт, через который проходит в моменте первая политика. сделано это для того, чтобы обучаемая политика была лучше всех возможных вариаций моделей (лучшие из которых совершенно необязательно выдают такие же ответы в моменте, что и первая моделька). довольно интересная и сложная концепция (и непривычная для рл), но она подвергается теории и анализу
обобщается что на preference-based методы, что на ревард-бейзд методы реформулировкой self-play Q функции. при том и то, и то теоретически подкреплены (в соответствии в их же теоретическими ограничениями ага, но не суть)
так же есть расширение на смесь двух политик из геометрического распределения (от основной идеи отличается добавленным гипером, который балансирует между долями политики для финальной смеси)
реализуют (почти) по рльному дефолту: актор-критик схема обновляется в advantage-weighted стиле. тренируем Value function, которая оперирует только над стейтами, через нее вычисляем advantage (с помощью GAE) & обновляем валью мсе лоссом, а актора через лог_проб + адвантэдж. а на вход модели в качестве последовательности поступают как запросы юзера, так и ответы модели (или того, что подразумевается под ответом модели в трейне)
но не менее важно как именно они конструировали датасет и на чем еще евалились
- Education Dialogue: сценарий норм подходит под измерение действий не в моменте (ибо они далеко могут быть неоптимальны из-за недостатка информации с преференсами). создавали через одну ллм как ответы учителя, так и строчки ученика, чтобы контекст был консистентным
- Car Dealer - энву брали для reward-based сетапа, где надо загнать автомобиль как можно дороже в соответствии с тем, кому именно продаешь и какую именно машину
по экспериментам очевидно обгоняет имеющиеся методы, потому что пока это единственная статья, где явно прописывается такой сеттинг
сами подмечают небольшой скейл моделек - 770М & 3B + только версии Т5 из соображения удобства авторам, как я понял
👀LINK
в основном сейчас ресерч в алайменте происходит на предположении, что нужно предоставить оптимальный ответ модели в моменте, при том контекст фиксирован и далее не будет влиять на задачу. справедливо, но не все практические задачки удовлетворяют такому. вернее даже меньшинство - если взять тот же пример чат-бот ассистента, то тут все поломается, ибо в начале диалога вряд ли возможно будет моментально дать оптимальный ответ из-за недостатка информации
сюда приходит идея мульти-терна: предположения о том, что часто действовать оптимально не получается и надо выдать настолько хороший аутпут в моменте (который необязательно будет решать поставленную промптом таску), что быстрее приведет к оптимальному результату *в целом от диалога*
авторы формулируют свою теорию, которая хорошо сводится к более-менее привычным Q, V-value функциям из рл (и так же уже из алаймента). только тут они зависят от двух политик - которую тюнят и SFT - при том первой надо выступать лучше на данном таймстепе референсной модели, которая имеет доступ к контексту с самого начала и вообще негарантированно проходит через тот стейт, через который проходит в моменте первая политика. сделано это для того, чтобы обучаемая политика была лучше всех возможных вариаций моделей (лучшие из которых совершенно необязательно выдают такие же ответы в моменте, что и первая моделька). довольно интересная и сложная концепция (и непривычная для рл), но она подвергается теории и анализу
обобщается что на preference-based методы, что на ревард-бейзд методы реформулировкой self-play Q функции. при том и то, и то теоретически подкреплены (в соответствии в их же теоретическими ограничениями ага, но не суть)
так же есть расширение на смесь двух политик из геометрического распределения (от основной идеи отличается добавленным гипером, который балансирует между долями политики для финальной смеси)
реализуют (почти) по рльному дефолту: актор-критик схема обновляется в advantage-weighted стиле. тренируем Value function, которая оперирует только над стейтами, через нее вычисляем advantage (с помощью GAE) & обновляем валью мсе лоссом, а актора через лог_проб + адвантэдж. а на вход модели в качестве последовательности поступают как запросы юзера, так и ответы модели (или того, что подразумевается под ответом модели в трейне)
но не менее важно как именно они конструировали датасет и на чем еще евалились
- Education Dialogue: сценарий норм подходит под измерение действий не в моменте (ибо они далеко могут быть неоптимальны из-за недостатка информации с преференсами). создавали через одну ллм как ответы учителя, так и строчки ученика, чтобы контекст был консистентным
- Car Dealer - энву брали для reward-based сетапа, где надо загнать автомобиль как можно дороже в соответствии с тем, кому именно продаешь и какую именно машину
по экспериментам очевидно обгоняет имеющиеся методы, потому что пока это единственная статья, где явно прописывается такой сеттинг
сами подмечают небольшой скейл моделек - 770М & 3B + только версии Т5 из соображения удобства авторам, как я понял
👀LINK
🔥3❤1 1
The Platonic Representation Hypothesis
репрезентации-репрезентации, эмбеддинги-эмбеддинги, мультимодальные эмбеддинги-эмбеддинги
все больше работ появляется на тот счет, что происходит совместное обучение на данных разной природы/модальности и получается прирост. и мы даже успели упомянуть некоторые такие работы (в основном про рл)
- https://t.me/rizzearch/217
- https://t.me/rizzearch/201
- https://t.me/rizzearch/95
и авторы решили глубже изучить этот вопрос на стыке картинок и текста - ставят вполне естественные гипотезы, которые свойственны человеческой способности к нахождениям все более общих абстракций
- чем больше задач мы одновременно желаем решать на оптимальном уровне, тем меньше осмысленных репрезентаций подходят под это ( The Multitask Scaling Hypothesis)
- большие модели натрененные на очень больших мульти-таск данных вероятнее сходятся к общим репрезентациям, чем маленькие и узконаправленные ( The Capacity Hypothesis )
- с увеличением размера модели пространство осмысленных эмбеддингов становится все “проще” ( The Simplicity Bias Hypothesis, который мы упоминали здесь)
еще мне понравилось, как авторы приводят аналогию с Principe d'Anna Karénine
so, авторы стараются измерить такое явление через “близость близостей” - для мультимодальных и не только пар получают эмбеддинги по разным моделям, берут от них другие ближайшие пары по кнн и считают пересечение. довольно просто и при том информативно
к каким выводам смогли прийти? репрезентации разных моделей действительно хорошо накладываются друг на друга с таким способом измерения, при маленьком количестве соседей, что интуитивно понятно - ближайшие эмбеддинги очень похоже, чем дальше в скрытом пространстве, тем дальше по *иерархии абстрактных паттернов Бытия*🌌
однако вопросы остаются. максимальная метрика по таким соседям = 1, в то время как при максимальном наложении метрика принимает 0.16, что все равно довольно много. влияние шума, архитектуры моделей или Длань Господня?👁 👁 👁
А что насчет тех понятий, которые даже человек явно не переведет в другую модальность? какая картинка у свободы воли? а как полностью описать солнечное затмение текстом? тем не менее накладка остается. можно предположить, что модели начинают синестезировать, либо просто мы еще не знаем как это нормально проевалить
👀LINK
репрезентации-репрезентации, эмбеддинги-эмбеддинги, мультимодальные эмбеддинги-эмбеддинги
все больше работ появляется на тот счет, что происходит совместное обучение на данных разной природы/модальности и получается прирост. и мы даже успели упомянуть некоторые такие работы (в основном про рл)
- https://t.me/rizzearch/217
- https://t.me/rizzearch/201
- https://t.me/rizzearch/95
и авторы решили глубже изучить этот вопрос на стыке картинок и текста - ставят вполне естественные гипотезы, которые свойственны человеческой способности к нахождениям все более общих абстракций
- чем больше задач мы одновременно желаем решать на оптимальном уровне, тем меньше осмысленных репрезентаций подходят под это ( The Multitask Scaling Hypothesis)
- большие модели натрененные на очень больших мульти-таск данных вероятнее сходятся к общим репрезентациям, чем маленькие и узконаправленные ( The Capacity Hypothesis )
- с увеличением размера модели пространство осмысленных эмбеддингов становится все “проще” ( The Simplicity Bias Hypothesis, который мы упоминали здесь)
еще мне понравилось, как авторы приводят аналогию с Principe d'Anna Karénine
Все репрезентативные эмбеддинги похожи друг на друга, каждый нерепрезентативный эмбед нерепрезентативен по-своему
so, авторы стараются измерить такое явление через “близость близостей” - для мультимодальных и не только пар получают эмбеддинги по разным моделям, берут от них другие ближайшие пары по кнн и считают пересечение. довольно просто и при том информативно
к каким выводам смогли прийти? репрезентации разных моделей действительно хорошо накладываются друг на друга с таким способом измерения, при маленьком количестве соседей, что интуитивно понятно - ближайшие эмбеддинги очень похоже, чем дальше в скрытом пространстве, тем дальше по *иерархии абстрактных паттернов Бытия*
однако вопросы остаются. максимальная метрика по таким соседям = 1, в то время как при максимальном наложении метрика принимает 0.16, что все равно довольно много. влияние шума, архитектуры моделей или Длань Господня?
А что насчет тех понятий, которые даже человек явно не переведет в другую модальность? какая картинка у свободы воли? а как полностью описать солнечное затмение текстом? тем не менее накладка остается. можно предположить, что модели начинают синестезировать, либо просто мы еще не знаем как это нормально проевалить
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Слепой ревьюер: ставит 1/10, не вникнув в суть
Как он видит себя со стороны:
Как он видит себя со стороны:
Deep Autoregressive Models for The Efficient Variational Simulation of Many-Body Quantum System
Окунемся в квантовую механику😭 . Моделирование систем многих частиц (many-body system) является важнейшей задачей в физике конденсированного состояния, химии и других областях. Ключ к этой задаче кроется в решении уравнения Шредингера, размер Гамильтониана в котором скейлится экспоненциально количеству тел😭
Классические подходы с нейронками называются neural quantum states (NQS) и завязаны на использовании сеток и методов Монте-Карло для вариационного расчета волновой функции системы (см variational MC) с семплированием новых структур системы. Однако, там где есть MCMC🔗 , там и есть вычислительные сложности связанные с ресурсами и нестабильности самого алгоритма. Тут нам и burn-in период может нужен (или нет), чтобы цепочка норм сходилась и правильно данные подобрать - сложно и не хочется конечно
Что делают?
Авторы статьи предложили забить на MCMC семплирование и использовать авторегрессионный подход - NAQS, позволяющий напрямую семплировать конфигурацию системы. Также как и в привычных нам картинках, авторы моделируют волновую функцию как произведение нормализованных conditional волновых функций
Архитектурно вдохновляются PixelCNN и применяют 1D маскированные свертки на набор спинов + l2-нормализацию (она нужна, чтобы из суммы лог-пси-функций получилось итоговая волновая нормализованная (!!!) функция). Делают симметризацию и агрегацию по симметриям конфигурации спинов, так у нас получается более эффективный search space для параметров модели
А как учат и какие экспы?
Оптимизация конечно тут не обычная. Обычно NQS применяются для поиска основного состояния системы (ground state). Мы хотим найти такие веса модели, которые минимизируют энергию системы. Энергию можно получить из Гамильтониана и волновой функции или же, эквивалентно, оценив матожидание по локальной энергии для каждого спина по батчу
Для экспов берут квантовый вариант модели Изинга (описывает магнитизм решетки). NAQS показывает хорошую точность в оценке энергии и магнетизации. Также интересно, что обычный MCMC разваливается на сильном феррамагнитном сетапе, а метод статьи успешно семплирует конфигурацию обоих ориентаций. Еще смотрят более сложную модель Хайзенберга. Хотя сравнение только с одним методом - не круто😦
👀 LINK
Окунемся в квантовую механику
Классические подходы с нейронками называются neural quantum states (NQS) и завязаны на использовании сеток и методов Монте-Карло для вариационного расчета волновой функции системы (см variational MC) с семплированием новых структур системы. Однако, там где есть MCMC
Что делают?
Авторы статьи предложили забить на MCMC семплирование и использовать авторегрессионный подход - NAQS, позволяющий напрямую семплировать конфигурацию системы. Также как и в привычных нам картинках, авторы моделируют волновую функцию как произведение нормализованных conditional волновых функций
Архитектурно вдохновляются PixelCNN и применяют 1D маскированные свертки на набор спинов + l2-нормализацию (она нужна, чтобы из суммы лог-пси-функций получилось итоговая волновая нормализованная (!!!) функция). Делают симметризацию и агрегацию по симметриям конфигурации спинов, так у нас получается более эффективный search space для параметров модели
А как учат и какие экспы?
Оптимизация конечно тут не обычная. Обычно NQS применяются для поиска основного состояния системы (ground state). Мы хотим найти такие веса модели, которые минимизируют энергию системы. Энергию можно получить из Гамильтониана и волновой функции или же, эквивалентно, оценив матожидание по локальной энергии для каждого спина по батчу
Для экспов берут квантовый вариант модели Изинга (описывает магнитизм решетки). NAQS показывает хорошую точность в оценке энергии и магнетизации. Также интересно, что обычный MCMC разваливается на сильном феррамагнитном сетапе, а метод статьи успешно семплирует конфигурацию обоих ориентаций. Еще смотрят более сложную модель Хайзенберга. Хотя сравнение только с одним методом - не круто
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention
KV Cache поистине прекрасная идея, которая уже успела повлиять на нашу область. однако сколько же по памяти занимает это чудо?
сколько же нужно элемент на один токен для каждого слоя? эмбеддинг размерность х количество голов как для К так и для V ⇒ получаем 2 * num_heads * embedding_dim на *каждый* слой.
но уже относительно давно известны методы по группировке модулей (Grouped-Query Attention, GQA), которые обрабатывают запросы. и каждый из модулей внутри этой группы разделяет общие модули но ключам/значениям ⇒ получаем снижение 2 * num_groups * embedding_dim на *каждый* слой
авторы из MIT решили пойти дальше и уже снизить потребление по памяти не внутри одного слоя, а объединив модули между слоями. потому и называется статься cross-layer KV Cache
что же придумали? да все просто - давайте группировать слои так, чтобы между ними были KV значения только из одного слоя внутри этой группы: и группы составлять через каждые 2, 3… N слоев. просто? - просто. сокращает память и работает! ( в силу тех ресурсов которые были у ресерчеров ) + оставляет возможность для совместимости с другими модификациями как GQA & не ставит никаких преград для параллелизации
правда есть вопросы по тому поводу, что на разных слоях происходят проекции по разным семантическим пространствам, что может не очень хорошо сказываться, когда запросы одной “природы”, а ключи/значения на инференсе другой “природы”
энивей, на скейле моделек 1В и 3В видится заметное снижение по памяти с приемлемым снижением качества (смотря какая задача). но я бы спекулировал, что на моделях большей размерности из-за гетерогенности Q vs KV перформанс будет заметно хуже
👀LINK
KV Cache поистине прекрасная идея, которая уже успела повлиять на нашу область. однако сколько же по памяти занимает это чудо?
сколько же нужно элемент на один токен для каждого слоя? эмбеддинг размерность х количество голов как для К так и для V ⇒ получаем 2 * num_heads * embedding_dim на *каждый* слой.
но уже относительно давно известны методы по группировке модулей (Grouped-Query Attention, GQA), которые обрабатывают запросы. и каждый из модулей внутри этой группы разделяет общие модули но ключам/значениям ⇒ получаем снижение 2 * num_groups * embedding_dim на *каждый* слой
авторы из MIT решили пойти дальше и уже снизить потребление по памяти не внутри одного слоя, а объединив модули между слоями. потому и называется статься cross-layer KV Cache
что же придумали? да все просто - давайте группировать слои так, чтобы между ними были KV значения только из одного слоя внутри этой группы: и группы составлять через каждые 2, 3… N слоев. просто? - просто. сокращает память и работает! ( в силу тех ресурсов которые были у ресерчеров ) + оставляет возможность для совместимости с другими модификациями как GQA & не ставит никаких преград для параллелизации
правда есть вопросы по тому поводу, что на разных слоях происходят проекции по разным семантическим пространствам, что может не очень хорошо сказываться, когда запросы одной “природы”, а ключи/значения на инференсе другой “природы”
энивей, на скейле моделек 1В и 3В видится заметное снижение по памяти с приемлемым снижением качества (смотря какая задача). но я бы спекулировал, что на моделях большей размерности из-за гетерогенности Q vs KV перформанс будет заметно хуже
👀LINK