rizzearch

ATLAS: Learning to Optimally Memorize the Context at Test Time

появился более сильный титан в виде атласа от авторов, которые еще и решеткой занимались

что изменилось?

- в онлайн обновлении весов теперь присутствует ньютон-шульц, который стал известен через muon
- дополнительный weight decay
- feature mapping (полиномиальный) для ключей в соответствующем слое для бОльшей экспрессивности

и смешным образом называется DeepTransformer

по скейлу максимум в 1.3B, превосходит титанов и линейные рнн + скейлится на контекст в 10млн, но имхо все еще не трансформер 2.0

👀 paper

🔥7👍2

624 views18:17

rizzearch

VLAs that Train Fast, Run Fast, and Generalize Better

yet another work from физикал интеллиженс

на этот раз авторы побольше углубились в вопрос ускорения обучения модели с улучшением генерализации не столь больших VLM (3B) → VLA: влмки не нацелены напрямую на решение задач принятия решений, но если в лоб тюнить их под такое, то могут происходить

- дестабилизация обучения при сочленении модуля на предикт действий с влм
- проблемы с knowledge transfer при тюне бекбона на роботику
- при том еще и хотелось бы получать быстрый инференс, а не как обычно вот это все. в данном случае речь идет про предикт действий с помощью флоу матчинга, а не привычного для трансформера token-level prediction (π0-FAST может предиктить акшн чанк в секунду примерно за 750 мс на RTX4090, что может сильно замедлять траекторию движения)

→ можно ли более удобным способом объединить две концепции - привычного для трансформера обучения предикта токенов и быстрого (10 Гц vs 1.3 Гц) инференса непрерывных действий при помощи флоу матчинга - более удобным образом, чем это делали в pi0.5? а там делали так, что в процессе обучения повышали значимость ФМ лосса при одновременном обучении на уровне токенов и непрерывных векторов

сейчас же авторы ответили на этот вопрос разделением флоу градиентов - раз трансформер хорошо учится на предикт токенов, ok, let it be, но давайте обучать тоже ФМ модуль и просто не вливать ее градиенты в бекбон VLM, которую мы будем заставлять сходиться на предикт языковых комманд и tokenized actions

профит? судя по всему, да, если смочь такое аккуратно реализовать через стоп-градиент операции и грамотно делать аттеншн маску (а она в таких мультимодальных робо делах не просто каузальная), где дискретные FAST действия и непрерывные не могут аттендиться друг на друга, чтобы не происходил лик, который не будет присутствовать непосредственно при инференсе

метрики выросли, латенси упала, по демкам (тем, которые предоставляют авторы для сравнения с предыдущими методами) выглядит получше, разве что они ничего не выложили в их репозиторий по этой работе, где по сути больше влияет инженерная имплементация под такую не breakthrough, но содержательную мысль

👀 paper, blog

👍4

636 views16:44

rizzearch

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Real-Time Execution of Action Chunking Flow Policies

снова pi

на этот раз авторы подметили, что action chunking, который так часто используют в роботике для оптимизации предикта на инференсе, но в риал тайме это вызывает паузы на стыке между чанками → замедляется работа модельки и, более того, меняется распределение при евале из-за таких дерганий и замедлений

авторы же призадумались

- было бы неплохо в асинхронной манере исполнять действия и при том постепенно подгатавливать следующие хоть как-то
- еще и желательно в training-free манере для моделек, многие из которых на флоу матчинге или диффузии построены

→ интуицию диффузионного инпейтинга (аутпейнтинга) можно попробовать переместить на этот домен, если аккуратно совместить с операциями роботик контроллера

- pi фиксируют model_prediction_time // controller_sampling_period действий, от которых вместе со следующими инпутами генерируются следующие действия
- еще и применяется софт маскинг (который много где применяют в задачах инпейнтинга) через экспоненциальное затухание значений. делают это опять-таки для непрерывности генераций и smooth траекторий движений робота
- + для этого затухания добавляют еще гиперпараметр (потому что без него подогнанного не так стабильно работает как идейно хотелось бы)

помимо реальных примеров со складыванием вещей, посуды и проводами так же авторы много экспериментов сделали на кинетиксе, где сделали 12 бенчмарков (10 сред от оксфордских авторов и 2 свои, на которых данные собрали при помощи RPO для имитации робо траекторий)

по результатам обыгрывает методы, которые стараются так же в асинхронный инференс (посредством наивноого разделения генерации либо усреднения), то есть результат ухудшается медленее при увеличении гэпа между выполнением и подготовкой

сидел с открытым ртом от того, как мастерски эти клешни зажгли спичку, а потом и свечку

👀 paper, code for kinetix, demo

👍4

628 views15:11

About

Blog

Apps

Platform