rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
Model-Preserving Adaptive Rounding

Альберт Тсенг может быть вам знаком по методам квантизаций qtip, quip/quip# и обучении ллм в mxfp4 , но не такому как quartet. он снова сделал квантизацию и получил алгоритм YAQA (Yet Another Quantization Algorithm)

GPTQ/LDLQ и AWQ методы производят квантизацию через прокси лосс разницы между активациями для отдельного слоя - layerwise mse + там присутствует гессиан для каждого слоя, который можно выразить через layer_input.T @ layer_input

здесь авторы возвращаются к более общей формулировке минимизации КЛ дивергенции между аутпутами оригинальной и сжатой моделями, выраженной через второй порядок → встает опять вопрос как посчитать более грамотно гессианы для каждого линейного слоя, которые все равно будут огромными из-за размерностей в современных ллм → надо снова аппроксимровать

используются те факты, что гессиан КЛ = fisher information matrix, которую можно эмпирически посчитать через gradient_loss.flatten() @ gradient_loss.flatten().T (один бекворд пасс) + произведение кронекера эквивалетно произведению с рангом 1, что можно получить через hessian-vector products, которые опять-таки хорошо компануются с бекворд пассом, упомянутым ранее, а следовательно и FSDP

вот так авторы и приближают оригинальный гессиан - через несколько итераций (до 3, power iterations) кронекер матрицами. при том они выводят 2 способа А и В
- А: дешевле (30 гпу-часов для 10В модели на 20М токенах), смещен, ниже разброс
- В: подороже (50 гпу-часов на 120М токенах), несмещен, но выше разброс → выше качество

второй получается лучше тем, что в нем нет предположения о независимости токенов внутри последовательностей (градиенты высчитываются по последовательностям). однако вариант А все равно получается лучше существующих методов в аппроксимации гессиана

также поскольку в сравнении с оригинальным LDLQ в учет идет не только фидбек от входных фичей (активаций), но еще и от выходных фичей, ибо оптимизируется end2end кл дивергенция оригинальной модели, то авторы расширяют понятие адаптивного округления → получаем, что LDLQ - частный случай YAQA

по экспериментам - проверяются на лламе и гемме, где к yaqa используют квантизатор qtip и домножение на матрицы Адамара для сглаживания. по всем битрейтам примерно на треть деркзо бьет все, что есть. точнее - все, с чем сравнивались, ибо насчет PV-Tuning & AQLM есть вот такой не менее дерзкий комментарий
We do not directly compare to PV-Tuning since there are no public PV-Tuning models with either the QTIP or INT4 quantizer. However, LDLQ with the QTIP quantizer already outperforms PV-Tuning with the learnable AQLM quantizer on Llama 3.1, so we expect YAQA with QTIP to outperform PV-Tuning as well


👀 paper, code
🔥5
Reinforcement Learning with Action Chunking

action chunking все больше набирает популярность из-за своей практичности в имитейшн лернинг - можно сказать, что для роботики это уже необходимый элемент в пайплайне, включая pi

и вот сергей левин со своими студентами нацелился на применение этого трюка для классического пайплайна actor-critic q-learning’a. формулы обобщаются при том довольно интуитивно понятно и перестают быть марковскими - везде одно действие меняется на чанк действий, что даже улучшает понятие n-step return’a, где использовали для расчета значения критика n шагов вперед вместо одного, ибо тогда убирается смещение off-policy действий этого чанка действий

имплементится это через диффузию и флоу матчинг с ограничением на приверженность behavior policy в offline и offline-to-online рл сетапах. при том в сетапе с диффузией КЛ ограничение между политиками реализуют через best-of-n sampling (BFN), а с флоу матчингом сшивание идей происходит более гладко, без изменений в ключевых местах алгоритма FQL. экспы проводят над RLPD, где внутри онлайн степов батч состоит наполовину из онлайн и оффлайн буфферов

при том предикт по чанкам улучшает момент эксплорейшна, ибо, как спекулируют авторы, действия внутри одного чанка становятся более связанными относительно друг друга (в сравнении с 1-step методами) → при инференсе можем ожидать поведение получше + sample efficiency

пока и остается большой вопрос по поводу размера чанка, который сильно влияет на перформанс (на OGBench 10 действий в одном чанке у авторов лучше чем 25), а по балансу между рантаймом и sample efficiency неплохо было бы перепроверить, действительно ли обучение происходит быстрее бейзлайнов

👀 paper, code
🔥62
Horizon Reduction Makes RL Scalable

берклийцы сделали бенчмарк OGBench для goal-conditioned RL, где не смогли решить сложные таски → надо что-то изменить, но что? сначала попробовали просто обучаться на бОльшем датасете и в принципе масштабироваться, как делали это в других областях, что решало проблему
We also note that our 1B-sized datasets contain about 1M trajectories and 10M atomic behaviors in manipulation environments, which is similar or even larger than one of the largest robotics datasets to date


но не помогло, сколько экспериментов ни проводи → авторы вспоминают, что эти таски сложны из-за бОльшего горизонта достижения цели, на котором сложнее фиттить value функцию из-за смещенности таргета (по построению) и актора в том числе, ибо стейты сложнее матчить с оптимальными действиями

и здесь авторы стакают много рабочих идей, чтобы заработало:
- добавляют иерархичность в модели (state → subgoal → action), потому что она позволяет размыть удлиненный горизонт решения таски на 2 уровня: на каждом из уровне горизонт получается короче
- политики (high- & low-level как здесь в роботике) обучаются в behavior-cloning стиле на флоу матчинге
- на базе n-step sarsa, но с high-level policy получается SHARSA + есть еще вариант Double SHARSA, где семплируют несколько аутпутов не только у верхне-, но еще и у нижнеуровневой модели
- а Q-функции еще и допом обучаются через кросс энтропию (бинарную, а не другую)

в принципе статью можно считать полезной по экспериментальной базе, где (по их заверениям) эти идеи в комбинации улучшают результат, однако вопросы вызывает пункт в аппендиксе, где авторы пробовали прикрутить трансформер к short-horizon методам → как так получилось, что введение размерности времени в архитектуру не меняет ее перформанс относительно задачи с длинным горизонтом

👀 paper, code
32
SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning

команда из Стенфорда и Джона Хопкинса продолжают масштабирование делать робота для хирургических операций на базе трансформера

сейчас авторы в бОльшей степени конкретизировали задачу - удаление желчного пузыря (холецистэктомия) через формализацию в общей сложности 17 таск (захват желчного пузыря, клипсы, разрези для протока и артерии)

а масштабирование пайплайна же состоит в добавлении иерархичности моделек - high- & low-level policies с возможностью человека вмешаться в процесс инференса. вторая модель предиктит непосредственно действия, в то время как первая (высокоуровневая) предиктит следующую фазу операции, инструкцию на коррекцию движения и нужно ли сейчас попытаться повторить неудачное ранее действие (recovery mode)

собрали в качестве демонстраций 17 часов траекторий с 34 желчными пузырями свиней двумя аннотаторами, при том отобрали такие семплы, где нет проблем с определением желчного протока и артерии (они не пересекаются и артерия не разветвляется). обучали 100 часов на RTX 4090, 72M параметров, еще добавили DAGger (Dataset Aggregation), когда собранные политикой семплы отмечаются экспертными действиями + во время обучения high-level политика предиктит инструкцию на 0.5 секунды вперед для того, чтобы она лучше справлялась с переходами между тасками

выглядит круто, при том на 8 новых пузырях репортят 100% success rate без вмешательства человека

👀 paper, demo
4👍3🔥2