Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
👍6🔥2
Flow Q-Learning
Сергей Левин уже довольно давно тыкается в применении диффузии в рл (как например более-менее фундаментально здесь или вообще довольно хайпово в роботике здесь) → дошел черед и до оффлайн (goal-conditioned) рл
ну и получилось это все реализовать у Seohong Park’a (который так же ответственен и за OGBench на котором и проводились экспы) через флоу матчинг в пространстве действий
но из-под коробки это все быстро не работает (и вероятно не очень-то хорошо и заводится) в связи с беквордом по времени (BPTT в связи с итеративным флоу семплингом), а потому из двух политик (акторов) рождаются две
1. flow policy, которая предиктит velocity field и итеративно расшумляет распределение действий из оффлайн датасета (behavioral cloning BC этакий)
2. и one-step policy, которая якобы за один шаг пытается сразу расшумить в действия, максимизирующие Q функцию (критика). получается лосс критика не будет проходить на обучении через бекпроп по времени что вполне классично и незатратно
интуитивно напоминает rectified flow, 1-ая политика обучается чисто на BC во флоу матчинг стиле через линейные пути и равномерное семплирование по времени, а 2-ой “одношаговый” актор максимизирует аутпуты критика и пытается в себя дистиллировать аутпуты flow policy
в принципе такой пайплайн на первый взгляд может быть трудноват, но в своей сути оказывается довольно минималистичен (в какой-то мере это даже бейзлайн для флоу матчинг сетапа, диффузионщики примерно такого же мнения). при том просто настолько, что сигнал таймстепов просто конкатенируют с другими инпутами (в более нагроможденных задачах имхо это стараются делать иначе)
так же с точки зрения диффузионной области может вызвать вопрос тот момент, что количество шагов семплирования не влияет сильно на итоговый перформанс, в отличие от коэффициента перед BC лоссом (что классично для оффлайн рл). ставят ли под вопрос такие моменты факт масштабируемости метода - хзхз
👀 paper, code
Сергей Левин уже довольно давно тыкается в применении диффузии в рл (как например более-менее фундаментально здесь или вообще довольно хайпово в роботике здесь) → дошел черед и до оффлайн (goal-conditioned) рл
ну и получилось это все реализовать у Seohong Park’a (который так же ответственен и за OGBench на котором и проводились экспы) через флоу матчинг в пространстве действий
но из-под коробки это все быстро не работает (и вероятно не очень-то хорошо и заводится) в связи с беквордом по времени (BPTT в связи с итеративным флоу семплингом), а потому из двух политик (акторов) рождаются две
1. flow policy, которая предиктит velocity field и итеративно расшумляет распределение действий из оффлайн датасета (behavioral cloning BC этакий)
2. и one-step policy, которая якобы за один шаг пытается сразу расшумить в действия, максимизирующие Q функцию (критика). получается лосс критика не будет проходить на обучении через бекпроп по времени что вполне классично и незатратно
интуитивно напоминает rectified flow, 1-ая политика обучается чисто на BC во флоу матчинг стиле через линейные пути и равномерное семплирование по времени, а 2-ой “одношаговый” актор максимизирует аутпуты критика и пытается в себя дистиллировать аутпуты flow policy
в принципе такой пайплайн на первый взгляд может быть трудноват, но в своей сути оказывается довольно минималистичен (в какой-то мере это даже бейзлайн для флоу матчинг сетапа, диффузионщики примерно такого же мнения). при том просто настолько, что сигнал таймстепов просто конкатенируют с другими инпутами (в более нагроможденных задачах имхо это стараются делать иначе)
так же с точки зрения диффузионной области может вызвать вопрос тот момент, что количество шагов семплирования не влияет сильно на итоговый перформанс, в отличие от коэффициента перед BC лоссом (что классично для оффлайн рл). ставят ли под вопрос такие моменты факт масштабируемости метода - хзхз
👀 paper, code
Latent Action Learning Requires Supervision in the Presence of Distractors
ресерч в области латентных действий это круто, ибо на еще один шажочек приближает методы рл к более реалистичным use case’ам - потому беркли до этого формализовали классические формулы под латентное пространство, а дипмаинд не сделали бы ворлд модели без них (гени и гени2, в оазисе наверняка без латентных действий тоже не обошлось)
ну и здесь авторы еще подвинули этот вопрос поближе к практическому сценарию - где есть много шума (отвлекающего фактора, нерелевантного для процесса принятия решений) принятый сообществом LAPO начинает работать супер плохо
- VQ квантизатор в таком сетапе начинает давать сбои (хотя изначально интуитивно он и помогал обучаться вычленению латентных действий вместо простых транзиций между обсервейшнами) → nahooy его
- обратная модель динамики теперь принимает не текущий обсервейшн и последующий, но и принадлежащий из окна в K таймстепов (потому что это молодежно, К = 10 достаточно для distracting DMC)
- всякий стафф по гиперпараметрам (латентная размерность действий 128 → 8192 etc.)
- теперь еще и модели динамики (прямая и обратная) оперируют в латентном пространстве, пытаясь восстановить не обсервейшн, а состояние. так и обучаться быстрее из соображений памяти + сетки попроще можно делать (в этом случае свертки просто заменяются на млп)
в общем и целом так. назвали LAOM. и хоть нехило так обгоняет лапу по качеству (на базе этих моделей надстраивать классику для максимизации награды + линейная проба под ground-truth действия), без дообучения на настоящие действия все не так сладко
но тем не менее и тут тоже есть + в том, что если раньше нужно было примерно 10% истинных действий, то здесь появляется показатель в 2.5%
👀 link, видео от авторов
ресерч в области латентных действий это круто, ибо на еще один шажочек приближает методы рл к более реалистичным use case’ам - потому беркли до этого формализовали классические формулы под латентное пространство, а дипмаинд не сделали бы ворлд модели без них (гени и гени2, в оазисе наверняка без латентных действий тоже не обошлось)
ну и здесь авторы еще подвинули этот вопрос поближе к практическому сценарию - где есть много шума (отвлекающего фактора, нерелевантного для процесса принятия решений) принятый сообществом LAPO начинает работать супер плохо
- VQ квантизатор в таком сетапе начинает давать сбои (хотя изначально интуитивно он и помогал обучаться вычленению латентных действий вместо простых транзиций между обсервейшнами) → nahooy его
- обратная модель динамики теперь принимает не текущий обсервейшн и последующий, но и принадлежащий из окна в K таймстепов (потому что это молодежно, К = 10 достаточно для distracting DMC)
- всякий стафф по гиперпараметрам (латентная размерность действий 128 → 8192 etc.)
- теперь еще и модели динамики (прямая и обратная) оперируют в латентном пространстве, пытаясь восстановить не обсервейшн, а состояние. так и обучаться быстрее из соображений памяти + сетки попроще можно делать (в этом случае свертки просто заменяются на млп)
в общем и целом так. назвали LAOM. и хоть нехило так обгоняет лапу по качеству (на базе этих моделей надстраивать классику для максимизации награды + линейная проба под ground-truth действия), без дообучения на настоящие действия все не так сладко
но тем не менее и тут тоже есть + в том, что если раньше нужно было примерно 10% истинных действий, то здесь появляется показатель в 2.5%
👀 link, видео от авторов
ViSNet: An Equivariant Geometry-Enchanced Graph Neural Network with Vector-Scalar Interactive Message Passing for Molecules
Из популярных работ по нейронкам для квантовой химии мы знаем, что для повышения точности полезно использовать геометрическую информацию о молекулах, такую как межатомные расстояния, углы соседей и торсиональные углы. Однако, такая информация дорого обходится с расчетах, имея сложность O(N^2) - O(N^3). ViSNet предалагет решение этой проблемы, использя мощную геометрическую информацию дешево
В центре метода так называемый Runtime Geometry Calculation (RGC) модель. Предлагается считать все геометрические признаки, через эквивариантное векторное предсталвение, выражая углы через скалярное произведение. Итого, получается расчитать все за линейное время
Авторы также используют сферические гармоники для higher-order информации. Однако, для эффективности заменяют дорогое произведение Клебша-Гордона, полагаясь только на полиномы Лежандра
Для того, чтобы использовать всю эту информацию во время обучения, в ViSNet сделали message passing с обменом информации между скалярными и векторными признаками. Это в целом было и в Allegro и в PaiNN, но здесь у нас есть дополнительная геометрическая информаций, и она фьюзится особым образом через Scalar2Vec и Vec2Scalar модули, которые постепенно интегрируют в себя фичи из RGC
Стоит отметить очень тщательные эксперименты, все-таки статья опубликована в Nature Communications. Посчитали MD17, MD22, QM9, Molecule3D и PCQM4Mv2, что больше, чем в среднем количество бенчмарков у подобных статей. Сравнились на MD17 с распределениями межатомных расстояний у DFT. Посмотрели на молекулярную динамику синтетического белка Chignolin и сравнились против молекулярной механики
👀 LINK
Из популярных работ по нейронкам для квантовой химии мы знаем, что для повышения точности полезно использовать геометрическую информацию о молекулах, такую как межатомные расстояния, углы соседей и торсиональные углы. Однако, такая информация дорого обходится с расчетах, имея сложность O(N^2) - O(N^3). ViSNet предалагет решение этой проблемы, использя мощную геометрическую информацию дешево
В центре метода так называемый Runtime Geometry Calculation (RGC) модель. Предлагается считать все геометрические признаки, через эквивариантное векторное предсталвение, выражая углы через скалярное произведение. Итого, получается расчитать все за линейное время
Авторы также используют сферические гармоники для higher-order информации. Однако, для эффективности заменяют дорогое произведение Клебша-Гордона, полагаясь только на полиномы Лежандра
Для того, чтобы использовать всю эту информацию во время обучения, в ViSNet сделали message passing с обменом информации между скалярными и векторными признаками. Это в целом было и в Allegro и в PaiNN, но здесь у нас есть дополнительная геометрическая информаций, и она фьюзится особым образом через Scalar2Vec и Vec2Scalar модули, которые постепенно интегрируют в себя фичи из RGC
Стоит отметить очень тщательные эксперименты, все-таки статья опубликована в Nature Communications. Посчитали MD17, MD22, QM9, Molecule3D и PCQM4Mv2, что больше, чем в среднем количество бенчмарков у подобных статей. Сравнились на MD17 с распределениями межатомных расстояний у DFT. Посмотрели на молекулярную динамику синтетического белка Chignolin и сравнились против молекулярной механики
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1
TransMLA: Multi-Head Latent Attention Is All You Need
дипсик хайпово привлек интерес к новой концепции Multi-Head Latent Attention (MLA), и тута китайцы это формализовали
вот есть у нас в стандартном MHA (Multi-Head Attention)
Q = X @ W_q
K = X @ W_k
V = X @ W_v
O = [ softmax(Q @ K^T) @ V ] @ W_o
где у нас по размерности матрицы (hidden_dim, num_heads x head_dim) или транспонированная в случае W_o. обычно это одно и то же по значениям hidden_dim == num_heads * head_dim но не суть, еще так же может быть num_kv_heads и это тоже опустим для простоты, как и момент с аггрегацией информации по головам etc
MLA же предлагает ключи и значения моделировать низкоранговыми матрицами (где ранг гипером определяется r)
K = X @ (W_k1 @ W_k2)
V = X @ (W_v1 @ W_v2)
и если в качестве фигурных скобочек выделить операции, которые заранее выполняются до инференса
O = softmax( X @ {W_q @ W_k2^T} @ K’^T ) @ V’ @ {W_v2 @ W_o}
где у нас
K’ = X @ W_k1
V’ = X @ W_v1
то получим что в качестве кв кэша надо хранить только репрезентации размерности r. по сути тем, что выше, я постарался показать махинации с лоу ранг матрицами чтобы сэкономить во время инференса операции
и помимо того, что это напрямую устроено для оптимизации памяти при некритическом изменении проекций слоя (как писали в пирамидкв, кв кэш на 100к токенов в ллама2 7б кушает 50гб памяти), авторы показывают, что МЛА является более общим случаем Grouped Query Attention при помощи соображений свд разложения с повторениями в матрицах для группировки запросов
→ можно сконвертировать GQA в MLA (но не обратно) и попробовать получить не только экономию по кв кэшу но и прирост в перформансе во время такого файнтюна (латентный аттеншн схватывает бОльшее разнообразие по каналам, поскольку в нем нет прямого момента дублирования значений голов)
по экспам дошли до 7б, при том изменение аттеншна на МЛА в данном случае прибавило на сотню миллионов параметров больше (что в принципе приемлемо 7.7B → 7.8B)
идея прикольная, статья только пока сыровата - побольше бы экспов и меньше опечаток в тексте
👀 link, code
дипсик хайпово привлек интерес к новой концепции Multi-Head Latent Attention (MLA), и тута китайцы это формализовали
вот есть у нас в стандартном MHA (Multi-Head Attention)
Q = X @ W_q
K = X @ W_k
V = X @ W_v
O = [ softmax(Q @ K^T) @ V ] @ W_o
где у нас по размерности матрицы (hidden_dim, num_heads x head_dim) или транспонированная в случае W_o. обычно это одно и то же по значениям hidden_dim == num_heads * head_dim но не суть, еще так же может быть num_kv_heads и это тоже опустим для простоты, как и момент с аггрегацией информации по головам etc
MLA же предлагает ключи и значения моделировать низкоранговыми матрицами (где ранг гипером определяется r)
K = X @ (W_k1 @ W_k2)
V = X @ (W_v1 @ W_v2)
и если в качестве фигурных скобочек выделить операции, которые заранее выполняются до инференса
O = softmax( X @ {W_q @ W_k2^T} @ K’^T ) @ V’ @ {W_v2 @ W_o}
где у нас
K’ = X @ W_k1
V’ = X @ W_v1
то получим что в качестве кв кэша надо хранить только репрезентации размерности r. по сути тем, что выше, я постарался показать махинации с лоу ранг матрицами чтобы сэкономить во время инференса операции
и помимо того, что это напрямую устроено для оптимизации памяти при некритическом изменении проекций слоя (как писали в пирамидкв, кв кэш на 100к токенов в ллама2 7б кушает 50гб памяти), авторы показывают, что МЛА является более общим случаем Grouped Query Attention при помощи соображений свд разложения с повторениями в матрицах для группировки запросов
→ можно сконвертировать GQA в MLA (но не обратно) и попробовать получить не только экономию по кв кэшу но и прирост в перформансе во время такого файнтюна (латентный аттеншн схватывает бОльшее разнообразие по каналам, поскольку в нем нет прямого момента дублирования значений голов)
по экспам дошли до 7б, при том изменение аттеншна на МЛА в данном случае прибавило на сотню миллионов параметров больше (что в принципе приемлемо 7.7B → 7.8B)
идея прикольная, статья только пока сыровата - побольше бы экспов и меньше опечаток в тексте
👀 link, code
World and Human Action Models towards gameplay ideation
вот и майкрософт, как оказывается, год назад уже смогли зафигачить модель мира на основе мультиплеер пвп bleeding edge от ninja theory (оказывается помимо devil may cry & hellblade они еще вот такое делали). но почему-то решили это отправить nature а не на архив по классике
собрали 28 террабайт датасета траекторий игроков (полмиллиона игровых сессий, 1.4B фреймов при 10Гц, 7+ лет реального времени, еще отфильтровали под конкретную карту примерно год по объему)
обсервейшны (картинки) 300х180х3 и действия маппят в одно и то же пространство токенов, при том для первых обучают сначала ViT-VQGAN в 300м параметров на реконструкцию и perpectual лоссы, а потом и добавляют ган обжектив непосредственно. в качестве ворлд модели выступает отдельный каузальный трансформер который моделирует последовательность токенов обсервейшнов и действий (в качестве них кстати выступают сигналы с контроллеров хбокс геймпада)
назвали это WHAM - World and Human Action Model
самый большой трансформер смогли натренить размером в 1.6B что не оч много но при этом довольно классные на глаз результаты получились (с учетом маленького разрешения фреймов). и присутствует то, что авторы называют persistency, diversity, consistency: генерации соответствуют игровой механике и более-менее геймер интерфейсу, они получаются разнообразными и способны адаптироваться под нововведенные объекты посреди инференса (например если добавить врага или какой-то игровой объект то очень естественно произойдет с ними взаимодействие)
насчет последнего так же они еще релизнули WHAM Demonstrator - как я понял это своеобразная гуишка, которая позволяет удобнее производить такие интервенции в момент генерации + смотреть на каких фреймах может происходить расхождения по разным сценариям с одинакового начального картиночного промпта (то что относится к диверсити)
paper
weights
dataset 75гб
P.S. у нас еще есть другие посты про модели мира - [1] [2] [3]
вот и майкрософт, как оказывается, год назад уже смогли зафигачить модель мира на основе мультиплеер пвп bleeding edge от ninja theory (оказывается помимо devil may cry & hellblade они еще вот такое делали). но почему-то решили это отправить nature а не на архив по классике
собрали 28 террабайт датасета траекторий игроков (полмиллиона игровых сессий, 1.4B фреймов при 10Гц, 7+ лет реального времени, еще отфильтровали под конкретную карту примерно год по объему)
обсервейшны (картинки) 300х180х3 и действия маппят в одно и то же пространство токенов, при том для первых обучают сначала ViT-VQGAN в 300м параметров на реконструкцию и perpectual лоссы, а потом и добавляют ган обжектив непосредственно. в качестве ворлд модели выступает отдельный каузальный трансформер который моделирует последовательность токенов обсервейшнов и действий (в качестве них кстати выступают сигналы с контроллеров хбокс геймпада)
назвали это WHAM - World and Human Action Model
самый большой трансформер смогли натренить размером в 1.6B что не оч много но при этом довольно классные на глаз результаты получились (с учетом маленького разрешения фреймов). и присутствует то, что авторы называют persistency, diversity, consistency: генерации соответствуют игровой механике и более-менее геймер интерфейсу, они получаются разнообразными и способны адаптироваться под нововведенные объекты посреди инференса (например если добавить врага или какой-то игровой объект то очень естественно произойдет с ними взаимодействие)
насчет последнего так же они еще релизнули WHAM Demonstrator - как я понял это своеобразная гуишка, которая позволяет удобнее производить такие интервенции в момент генерации + смотреть на каких фреймах может происходить расхождения по разным сценариям с одинакового начального картиночного промпта (то что относится к диверсити)
paper
weights
dataset 75гб
🔥4❤3