rizzearch

ATLAS: Learning to Optimally Memorize the Context at Test Time

появился более сильный титан в виде атласа от авторов, которые еще и решеткой занимались

что изменилось?

- в онлайн обновлении весов теперь присутствует ньютон-шульц, который стал известен через muon
- дополнительный weight decay
- feature mapping (полиномиальный) для ключей в соответствующем слое для бОльшей экспрессивности

и смешным образом называется DeepTransformer

по скейлу максимум в 1.3B, превосходит титанов и линейные рнн + скейлится на контекст в 10млн, но имхо все еще не трансформер 2.0

👀 paper

🔥7👍2

624 views18:17

rizzearch

VLAs that Train Fast, Run Fast, and Generalize Better

yet another work from физикал интеллиженс

на этот раз авторы побольше углубились в вопрос ускорения обучения модели с улучшением генерализации не столь больших VLM (3B) → VLA: влмки не нацелены напрямую на решение задач принятия решений, но если в лоб тюнить их под такое, то могут происходить

- дестабилизация обучения при сочленении модуля на предикт действий с влм
- проблемы с knowledge transfer при тюне бекбона на роботику
- при том еще и хотелось бы получать быстрый инференс, а не как обычно вот это все. в данном случае речь идет про предикт действий с помощью флоу матчинга, а не привычного для трансформера token-level prediction (π0-FAST может предиктить акшн чанк в секунду примерно за 750 мс на RTX4090, что может сильно замедлять траекторию движения)

→ можно ли более удобным способом объединить две концепции - привычного для трансформера обучения предикта токенов и быстрого (10 Гц vs 1.3 Гц) инференса непрерывных действий при помощи флоу матчинга - более удобным образом, чем это делали в pi0.5? а там делали так, что в процессе обучения повышали значимость ФМ лосса при одновременном обучении на уровне токенов и непрерывных векторов

сейчас же авторы ответили на этот вопрос разделением флоу градиентов - раз трансформер хорошо учится на предикт токенов, ok, let it be, но давайте обучать тоже ФМ модуль и просто не вливать ее градиенты в бекбон VLM, которую мы будем заставлять сходиться на предикт языковых комманд и tokenized actions

профит? судя по всему, да, если смочь такое аккуратно реализовать через стоп-градиент операции и грамотно делать аттеншн маску (а она в таких мультимодальных робо делах не просто каузальная), где дискретные FAST действия и непрерывные не могут аттендиться друг на друга, чтобы не происходил лик, который не будет присутствовать непосредственно при инференсе

метрики выросли, латенси упала, по демкам (тем, которые предоставляют авторы для сравнения с предыдущими методами) выглядит получше, разве что они ничего не выложили в их репозиторий по этой работе, где по сути больше влияет инженерная имплементация под такую не breakthrough, но содержательную мысль

👀 paper, blog

👍4

636 views16:44

rizzearch

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Real-Time Execution of Action Chunking Flow Policies

снова pi

на этот раз авторы подметили, что action chunking, который так часто используют в роботике для оптимизации предикта на инференсе, но в риал тайме это вызывает паузы на стыке между чанками → замедляется работа модельки и, более того, меняется распределение при евале из-за таких дерганий и замедлений

авторы же призадумались

- было бы неплохо в асинхронной манере исполнять действия и при том постепенно подгатавливать следующие хоть как-то
- еще и желательно в training-free манере для моделек, многие из которых на флоу матчинге или диффузии построены

→ интуицию диффузионного инпейтинга (аутпейнтинга) можно попробовать переместить на этот домен, если аккуратно совместить с операциями роботик контроллера

- pi фиксируют model_prediction_time // controller_sampling_period действий, от которых вместе со следующими инпутами генерируются следующие действия
- еще и применяется софт маскинг (который много где применяют в задачах инпейнтинга) через экспоненциальное затухание значений. делают это опять-таки для непрерывности генераций и smooth траекторий движений робота
- + для этого затухания добавляют еще гиперпараметр (потому что без него подогнанного не так стабильно работает как идейно хотелось бы)

помимо реальных примеров со складыванием вещей, посуды и проводами так же авторы много экспериментов сделали на кинетиксе, где сделали 12 бенчмарков (10 сред от оксфордских авторов и 2 свои, на которых данные собрали при помощи RPO для имитации робо траекторий)

по результатам обыгрывает методы, которые стараются так же в асинхронный инференс (посредством наивноого разделения генерации либо усреднения), то есть результат ухудшается медленее при увеличении гэпа между выполнением и подготовкой

сидел с открытым ртом от того, как мастерски эти клешни зажгли спичку, а потом и свечку

👀 paper, code for kinetix, demo

👍4

628 views15:11

rizzearch

Forwarded from Max Zhdanov Dropping Dimes

🚀

У меня вышла новая статья!

Первые полгода с копейками работы над ИИ в квантовой химии подытожились статьей Electrostatics from Laplacian Eigenbasis for Neural Network Interatomic Potentials, или же Φ-Module

Одна из центральных задач квантовой химии - предсказание энергии молекулы. Энергия определяет структуру, стабильность, а также связана с целым рядом важных свойств, таких как энергия ионизации, поляризуемость, разница HOMO-LUMO и другие. Традиционные методы квантовой химии работают точно, но долго и дорого. Поэтому сейчас активно развивается тренд на использование нейронных сетей (нейронных потенциалов), которые могут решать такие задачи намного быстрее

Однако многие нейронки для квантовой химии не обладают возможностью корректно оценивать дальнодействующие взаимодействия, такие как электростатика, возникающая между атомами на больших расстониях. Эти взаимодействия очень важны, особенно в биомолекулах значительных размеров, где они сильно влиять на энергию

В статье предложен метод, позволяющий быстро и дешево добавить электростатику в абсолютно любой нейронный потенциал!

🧬 Работу уже взяли на воркшоп ICML 2025 по генеративной биологии!

А код уже есть на гитхабе https://github.com/dunnolab/phi-module

⭐️

Больше деталей в комментариях ⬇️

📎

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍5

591 views13:14

rizzearch

A Stable Whitening Optimizer for Efficient Neural Network Training

один из reflection.ai неожиданно выпустил статью насчет оптимизации, а неожиданно потому, что он пхд студент широко известного в особо узких кругах Сергея Левина, который занимается рл и роботикой

а поконкретнее, главный автор углубился в недостатки шампуня, который аккумулирует multiplication products градиентов для их ортогонализации, что эмпирически помогает в обучении, и недавний muon можно интерпретировать как accumulation-free shampoo

но все же в изначальной идее аккумулируют не совсем продукты от градиентов, а обратные матрицы от них → довольно дорогая операция, которую делают периодически, не на каждом шаге → получаем дополнительный нетривиальный гиперпараметр, который сильно влияет на все обучение (период обновления)

так еще и в принципе сама идея этого обновления на основе предыдущих градиентов чревата нестабильностью из-за выбросов → надо как-то нормализовывать, что делает уже мыло в более лучшей манере поэлементно, но так памяти нужно больше

главный автор аккуратно противопоставляет этому свой пропозал
- раз мы уже выяснили, что ортогонализация градиентов полезна, так может удастся в нужное место вставить еще и матричное разложение (второй вечный трюк в линале): будем хранить в кэше не инвертированные градиенты, а спектральное разложение от этих сущностей. интуитивно храним собственные вектора, которые соответствуют направлениям ковариации градиентов (hello pca) → более стабильные репрезентации
- и уже в eigen пространстве в качестве нормализации можно использовать просто взятие знака, что теоретически ограничивает спектральную норму и все получается гуд, так еще и гиперпараметр периода обновления кэша менее остро влияет на сходимость
- но (видимо без этого не заводится, cheap trick) надо добавлять EMA для параметров модели

в качестве методологии идут сравнения с адамом (сколько нужно обучать по времени и количеству шагов в сравнении с этим оптимизатором), хоть и к нему в последнее время появляются вопросы, как, например, про стабилизацию норм активаций в сравнении с AdamW. и последний, кстати, присутствует в ридми в качестве примера, хоть и в этой статье про него ни слова

все эксперименты проводились с джаксом на скейле в 160М трансформере по языковому моделированию + классификация картинок + диффузия, при том в сетапе упоминаются 32 карты TPUv3 (не особо понятно куда модель такого размера разворачивать на столько карт). есть так же и имплементация на пайторч, но на ней эксперименты не проводились (и в том числе нету понимания, останется ли торчовский код стабильным при раскатке на несколько карт)

в целом muon выглядит все равно намного вкуснее - и идейно, и по экспериментам, которые уже есть у коммьюнити, поскольку ничего кешировать не надо, и декомпозиция сильно на картину не повлияет, но пока нету муон пайторч кода, которым можно было бы жечь несколько карточек одновременно (фсдп или еще как) + еще автор демонстрирует формулу, как скейлить лр от адама к этому оптимизатору

👀 paper, code

5👍3

757 views15:28

About

Blog

Apps

Platform