Memory Mosaics
хоть недавно и вышла альтернатива трансформеру от саканы, она все равно использует аттеншн как основной механизм и не выглядит как вывод из bitter lesson
здесь же хочется написать про айклировские 2025 мозаики памяти, которые базируются на ассоциативной памяти (да, она мне нравится и я про нее уже писал здесь и здесь + китай тоже что-то пытается с ней делать, разбавляя текст цитатами из goodreads)
вместо селф аттеншна идет же база на основе Надарая-Ватсона [1], [2]
- где моделируют необходимые ключи k и значения v для ассоциаций
- при том ключи вычисляются по токенам вплоть до данного таймстепа, а значения же на один шаг вперед (хотя можно в теории сделать и на большее количество шагов + нам еще так не придется вставлять позиционное кодирование), а на инференсе получается путем интерполяции
- и итоговый аутпут вычисляется через Надарая-Ватсона (который в теории должен сходиться к истинному какому-то там условному мат ожиданию значений v от ключей k)
- и поскольку теоретически один такой модуль сходится, то и интерпретация его (по словам авторов) лучше, чем один модуль селф аттеншна, да и даже эффективнее. так они эмпирически показывают, что inductive bias может появиться уже с одним таким блоком памяти, в то время как аттеншну нужно минимум 2 слоя
- для того, чтобы хендлить длинные последовательности и больше укрепить вопрос о позиционности токенов в архитектуре, авторы добавили нормализацию и leaky average, которую можно реализовать через свертку
- если же наслаивать эти модули друг на друга, каждый в отдельности будет отвечать за свой кусок меморизации, нужный для цельной картины - отсюда и название мозаик памяти (а и еще это наводит на мысли о связи мета-лернинга и градиентного обучения, про которое мы и тут упоминали)
что по экспам?
- супер-пупер маленький скейл (сравнивают с маленькой гпт2)
- игрушечные датасеты (3 луны) + языковое моделирование как BabiStories + in-context learning on RegBench
- обгоняет по перплексии, обгоняет в ин-контекст лернинг сетапе + нужно меньше слоев (в том числе в сравнении и с рнн и ссм)
- добавляют еще аналог FFN в виде Persistent Associative Memory (где количество kv фиксировано и они побольше подходят с теории кернел регрессии)
- но масштабируемо ли?
seems like not. иначе их predictive disentanglement (свойство мозаики) сравнивался с бОльшим скейлом моделек + были бы аблации на чувствительность к гиперам
но материал хорош для повторения всей этой теории и нового взгляда на аттеншн
👀 paper, code
хоть недавно и вышла альтернатива трансформеру от саканы, она все равно использует аттеншн как основной механизм и не выглядит как вывод из bitter lesson
здесь же хочется написать про айклировские 2025 мозаики памяти, которые базируются на ассоциативной памяти (да, она мне нравится и я про нее уже писал здесь и здесь + китай тоже что-то пытается с ней делать, разбавляя текст цитатами из goodreads)
вместо селф аттеншна идет же база на основе Надарая-Ватсона [1], [2]
- где моделируют необходимые ключи k и значения v для ассоциаций
- при том ключи вычисляются по токенам вплоть до данного таймстепа, а значения же на один шаг вперед (хотя можно в теории сделать и на большее количество шагов + нам еще так не придется вставлять позиционное кодирование), а на инференсе получается путем интерполяции
- и итоговый аутпут вычисляется через Надарая-Ватсона (который в теории должен сходиться к истинному какому-то там условному мат ожиданию значений v от ключей k)
- и поскольку теоретически один такой модуль сходится, то и интерпретация его (по словам авторов) лучше, чем один модуль селф аттеншна, да и даже эффективнее. так они эмпирически показывают, что inductive bias может появиться уже с одним таким блоком памяти, в то время как аттеншну нужно минимум 2 слоя
- для того, чтобы хендлить длинные последовательности и больше укрепить вопрос о позиционности токенов в архитектуре, авторы добавили нормализацию и leaky average, которую можно реализовать через свертку
- если же наслаивать эти модули друг на друга, каждый в отдельности будет отвечать за свой кусок меморизации, нужный для цельной картины - отсюда и название мозаик памяти (а и еще это наводит на мысли о связи мета-лернинга и градиентного обучения, про которое мы и тут упоминали)
что по экспам?
- супер-пупер маленький скейл (сравнивают с маленькой гпт2)
- игрушечные датасеты (3 луны) + языковое моделирование как BabiStories + in-context learning on RegBench
- обгоняет по перплексии, обгоняет в ин-контекст лернинг сетапе + нужно меньше слоев (в том числе в сравнении и с рнн и ссм)
- добавляют еще аналог FFN в виде Persistent Associative Memory (где количество kv фиксировано и они побольше подходят с теории кернел регрессии)
- но масштабируемо ли?
seems like not. иначе их predictive disentanglement (свойство мозаики) сравнивался с бОльшим скейлом моделек + были бы аблации на чувствительность к гиперам
но материал хорош для повторения всей этой теории и нового взгляда на аттеншн
👀 paper, code
🔥3👍1
ATLAS: Learning to Optimally Memorize the Context at Test Time
появился более сильный титан в виде атласа от авторов, которые еще и решеткой занимались
что изменилось?
- в онлайн обновлении весов теперь присутствует ньютон-шульц, который стал известен через muon
- дополнительный weight decay
- feature mapping (полиномиальный) для ключей в соответствующем слое для бОльшей экспрессивности
и смешным образом называется DeepTransformer
по скейлу максимум в 1.3B, превосходит титанов и линейные рнн + скейлится на контекст в 10млн, но имхо все еще не трансформер 2.0
👀 paper
появился более сильный титан в виде атласа от авторов, которые еще и решеткой занимались
что изменилось?
- в онлайн обновлении весов теперь присутствует ньютон-шульц, который стал известен через muon
- дополнительный weight decay
- feature mapping (полиномиальный) для ключей в соответствующем слое для бОльшей экспрессивности
и смешным образом называется DeepTransformer
по скейлу максимум в 1.3B, превосходит титанов и линейные рнн + скейлится на контекст в 10млн, но имхо все еще не трансформер 2.0
👀 paper
🔥7👍2
VLAs that Train Fast, Run Fast, and Generalize Better
yet another work from физикал интеллиженс
на этот раз авторы побольше углубились в вопрос ускорения обучения модели с улучшением генерализации не столь больших VLM (3B) → VLA: влмки не нацелены напрямую на решение задач принятия решений, но если в лоб тюнить их под такое, то могут происходить
- дестабилизация обучения при сочленении модуля на предикт действий с влм
- проблемы с knowledge transfer при тюне бекбона на роботику
- при том еще и хотелось бы получать быстрый инференс, а не как обычно вот это все. в данном случае речь идет про предикт действий с помощью флоу матчинга, а не привычного для трансформера token-level prediction (π0-FAST может предиктить акшн чанк в секунду примерно за 750 мс на RTX4090, что может сильно замедлять траекторию движения)
→ можно ли более удобным способом объединить две концепции - привычного для трансформера обучения предикта токенов и быстрого (10 Гц vs 1.3 Гц) инференса непрерывных действий при помощи флоу матчинга - более удобным образом, чем это делали в pi0.5? а там делали так, что в процессе обучения повышали значимость ФМ лосса при одновременном обучении на уровне токенов и непрерывных векторов
сейчас же авторы ответили на этот вопрос разделением флоу градиентов - раз трансформер хорошо учится на предикт токенов, ok, let it be, но давайте обучать тоже ФМ модуль и просто не вливать ее градиенты в бекбон VLM, которую мы будем заставлять сходиться на предикт языковых комманд и tokenized actions
профит? судя по всему, да, если смочь такое аккуратно реализовать через стоп-градиент операции и грамотно делать аттеншн маску (а она в таких мультимодальных робо делах не просто каузальная), где дискретные FAST действия и непрерывные не могут аттендиться друг на друга, чтобы не происходил лик, который не будет присутствовать непосредственно при инференсе
метрики выросли, латенси упала, по демкам (тем, которые предоставляют авторы для сравнения с предыдущими методами) выглядит получше, разве что они ничего не выложили в их репозиторий по этой работе, где по сути больше влияет инженерная имплементация под такую не breakthrough, но содержательную мысль
👀 paper, blog
yet another work from физикал интеллиженс
на этот раз авторы побольше углубились в вопрос ускорения обучения модели с улучшением генерализации не столь больших VLM (3B) → VLA: влмки не нацелены напрямую на решение задач принятия решений, но если в лоб тюнить их под такое, то могут происходить
- дестабилизация обучения при сочленении модуля на предикт действий с влм
- проблемы с knowledge transfer при тюне бекбона на роботику
- при том еще и хотелось бы получать быстрый инференс, а не как обычно вот это все. в данном случае речь идет про предикт действий с помощью флоу матчинга, а не привычного для трансформера token-level prediction (π0-FAST может предиктить акшн чанк в секунду примерно за 750 мс на RTX4090, что может сильно замедлять траекторию движения)
→ можно ли более удобным способом объединить две концепции - привычного для трансформера обучения предикта токенов и быстрого (10 Гц vs 1.3 Гц) инференса непрерывных действий при помощи флоу матчинга - более удобным образом, чем это делали в pi0.5? а там делали так, что в процессе обучения повышали значимость ФМ лосса при одновременном обучении на уровне токенов и непрерывных векторов
сейчас же авторы ответили на этот вопрос разделением флоу градиентов - раз трансформер хорошо учится на предикт токенов, ok, let it be, но давайте обучать тоже ФМ модуль и просто не вливать ее градиенты в бекбон VLM, которую мы будем заставлять сходиться на предикт языковых комманд и tokenized actions
профит? судя по всему, да, если смочь такое аккуратно реализовать через стоп-градиент операции и грамотно делать аттеншн маску (а она в таких мультимодальных робо делах не просто каузальная), где дискретные FAST действия и непрерывные не могут аттендиться друг на друга, чтобы не происходил лик, который не будет присутствовать непосредственно при инференсе
метрики выросли, латенси упала, по демкам (тем, которые предоставляют авторы для сравнения с предыдущими методами) выглядит получше, разве что они ничего не выложили в их репозиторий по этой работе, где по сути больше влияет инженерная имплементация под такую не breakthrough, но содержательную мысль
👀 paper, blog
👍4
Real-Time Execution of Action Chunking Flow Policies
снова pi
на этот раз авторы подметили, что action chunking, который так часто используют в роботике для оптимизации предикта на инференсе, но в риал тайме это вызывает паузы на стыке между чанками → замедляется работа модельки и, более того, меняется распределение при евале из-за таких дерганий и замедлений
авторы же призадумались
- было бы неплохо в асинхронной манере исполнять действия и при том постепенно подгатавливать следующие хоть как-то
- еще и желательно в training-free манере для моделек, многие из которых на флоу матчинге или диффузии построены
→ интуицию диффузионного инпейтинга (аутпейнтинга) можно попробовать переместить на этот домен, если аккуратно совместить с операциями роботик контроллера
- pi фиксируют model_prediction_time // controller_sampling_period действий, от которых вместе со следующими инпутами генерируются следующие действия
- еще и применяется софт маскинг (который много где применяют в задачах инпейнтинга) через экспоненциальное затухание значений. делают это опять-таки для непрерывности генераций и smooth траекторий движений робота
- + для этого затухания добавляют еще гиперпараметр (потому что без него подогнанного не так стабильно работает как идейно хотелось бы)
помимо реальных примеров со складыванием вещей, посуды и проводами так же авторы много экспериментов сделали на кинетиксе, где сделали 12 бенчмарков (10 сред от оксфордских авторов и 2 свои, на которых данные собрали при помощи RPO для имитации робо траекторий)
по результатам обыгрывает методы, которые стараются так же в асинхронный инференс (посредством наивноого разделения генерации либо усреднения), то есть результат ухудшается медленее при увеличении гэпа между выполнением и подготовкой
сидел с открытым ртом от того, как мастерски эти клешни зажгли спичку, а потом и свечку
👀 paper, code for kinetix, demo
снова pi
на этот раз авторы подметили, что action chunking, который так часто используют в роботике для оптимизации предикта на инференсе, но в риал тайме это вызывает паузы на стыке между чанками → замедляется работа модельки и, более того, меняется распределение при евале из-за таких дерганий и замедлений
авторы же призадумались
- было бы неплохо в асинхронной манере исполнять действия и при том постепенно подгатавливать следующие хоть как-то
- еще и желательно в training-free манере для моделек, многие из которых на флоу матчинге или диффузии построены
→ интуицию диффузионного инпейтинга (аутпейнтинга) можно попробовать переместить на этот домен, если аккуратно совместить с операциями роботик контроллера
- pi фиксируют model_prediction_time // controller_sampling_period действий, от которых вместе со следующими инпутами генерируются следующие действия
- еще и применяется софт маскинг (который много где применяют в задачах инпейнтинга) через экспоненциальное затухание значений. делают это опять-таки для непрерывности генераций и smooth траекторий движений робота
- + для этого затухания добавляют еще гиперпараметр (потому что без него подогнанного не так стабильно работает как идейно хотелось бы)
помимо реальных примеров со складыванием вещей, посуды и проводами так же авторы много экспериментов сделали на кинетиксе, где сделали 12 бенчмарков (10 сред от оксфордских авторов и 2 свои, на которых данные собрали при помощи RPO для имитации робо траекторий)
по результатам обыгрывает методы, которые стараются так же в асинхронный инференс (посредством наивноого разделения генерации либо усреднения), то есть результат ухудшается медленее при увеличении гэпа между выполнением и подготовкой
сидел с открытым ртом от того, как мастерски эти клешни зажгли спичку, а потом и свечку
👀 paper, code for kinetix, demo
👍4