rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
A Super-human Vision-based Reinforcement Learning Agent for Autonomous Racing in Gran Turismo

как насчет рл алгоса, который может обгонять 130к юзеров на трех треках в гран туризмо? при том в качестве инпутов у него только локальные данные - показатели с тачки + ргб картинка

но все чуть хитрее - реализован Quantile Regression SAC, в котором критик имеет доступ к глобальным фичам (которые связаны с оверолл траекторией по конкретному треку), что помогает пожестче тренить актора

очень четко описано создание реварда с 5 фичами и 4 коэффициентами (даже представить страшно сколько времени у них ушло на их подбор)

только чекните какие тачки, это просто кайфы. вот он современный ресерч в сони - заставь нейронки обыгрывать всех в гран туризмо и получай за это зп

еще в аппендиксе интересно прочитать, что они как будто использовали 20 пс4 для сбора данных. это еще не учитывая, сколько времени и ресурсов ушло на сбор и обучение. в общем, статейка получилась недешевой

👀LINK
7
Offline RL for Natural Language Generation with Implicit Language Q Learning

статья по алайменту от рлщиков, где даже не фигурирует слово “алаймент”

вообще в начале они дают интересное обоснование того, почему рл очень хорошо можно приложить в нлп к диалоговой задаче - поскольку это последовательность интеракций, где нужно прийти к оптимальному решению за всю историю, а не только за следующий шаг

здесь авторы так же приходят в выводу, что только сфт не помогает получить желаемые результаты от модели на таске → они применяют оффлайн рл и все становится оки (почти)

поскольку соавтор этой статьи Илья Костриков, который сделал IQL, сюда же сразу попробовали применить и его. так же они сравнили и с другими бейзлайнами, как CQL, DT + %BC (behavior cloning, по сути сфт, а процент означает, что данные еще и предварительно фильтруют по реварду)

еще в процессе работы появилась загвоздка - метод напрямую не заводится. если обучать основную сеть (которая уже прошла этап сфт), то все было очень нестабильно ⇒ не знаю, можно ли назвать это костылем, но авторы решили это тем, что не обучают policy сетку, а оставляют только Q & V головы для обучения, чьи аутпуты затем используются для перерасчета логитов ллмки (как и подразумевает iql)

к тому же в этом перерасчете сохраняется гипер температуры (который не совсем тот, что в стандартном сетапе, но преподносит ту же логику), с которым можно играть вариативностью ответов + появилась устойчивость к “стохастичности реварда” (неоднородности человеческих преференций), как интуитивно и эмпирически показывают авторы. но я скептичен насчет последнего пункта, ибо само составление ревардов под датасеты не столь чувствительно - скорее просто сигнал награды, которые авторы сами и придумали, тяжело перекрыть разностью в “мнения разных людей”

и по времени обучения это все в 2 раза медленнее, чем простой файнтюн, а как это соотносится с более-менее привычными методами алаймента неизвестно - скорее всего не очень так как уже на 60м параметрах метод работает не так, как полагается по оффлайн рл методологии. но who knows, можно спекулировать, что надо просто встроить эту вещь более грамотно

👀LINK
In-Context Imitation Learning
via Next-Token Prediction


мы уже ни раз упоминали про такую хайповую область, как ин-контекст рл.

и теперь авторы из беркли и не только смогли расширить ее до применения в роботике, то есть в реальном мире (а не только в джакс средах хехе)

только тут это не ин-контекст рл, а ин-контекст имитейшн лернинг. в трейн датасете 29 комплексных тасок, которые состоят из 6 примитивных и собирались человеком, на евале таски составлялись из 3 примитивных

общий пайплайн примерно напоминает то, что уже было: в качестве контекста берется несколько траекторий, ргб картинки + проприоцепция обрабатываются как разные модальности, делаем пулинг с аттеншном и получаем что-то типа state. скармливаем последовательность вместе с действиями и обучаем в классике next-token prediction: predict a_t+1 given (s_1, a_1, s_2, a_2… s_t-1, a_t-1, s_t). разве что сигнала реварда нет, потому что это имитейшн лернинг

серьезная разница есть так же и во время инференса - в качестве “системного промпта” подаются трейн траектории на других комплексных тасках, чтобы агент не улетел на новой тестовой в накопление ошибки, которое так часто встречается в IL. и этот интересный инсайт работает, что прикольно

ждем скейла по ускорению работы трансформера (как и здесь) + скейла по тому, чтобы была генерализация на неизвестные прежде примитивные таски (что сложнее, ибо наверняка придется повышать их количество до порядка, сравнимого с порядком трейновых тасок для ин-контекст рл методов - сотни и тысячи)

👀LINK
Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

yo, Беркли сделали один трансформер, который может принимать в себя разные инпуты по роботике (включая текст, картинки разной природы и разную проприоцепцию) и управлять разными устройствами (даже внутри одной задачи)

окей, а поконкретнее - совершенно разные входные пространства, пространства действий, а это все еще приправлено тем, что надо осуществлять предикт с разной частотой (от 5 до 20 Гц). и все это неплохо было бы захендлить более-менее единой архитектурой. а задачки включают в себя:

- того самого четвероного
- однорукого манипулятора
- двурукого манипулятора
- машинки с колесиками врум врум с проблемой навигации

суммарно вышло 20 различных вариантов робота

и как показывают эксперименты, такой претрен на разных роботиках позволяет улучшить результаты друг друга, ибо близко к понятию фаундейшн моделей, да и просто с разных датасетов данных больше, на которых чему-то можно научиться + влияет гетерогенные инпуты имхо (где-то нужен текстовый промпт, где-то этого вообще не надо и достаточно картинки обсервейшна в данный момент времени + целевого обсервейшна)

при том достигается это даже при столь сильно несбалансированном датасете, хотя и здесь не обошлось без проблем при наложении весов на разные таски + авторы говорят, что есть серьезная проблема в скейле - если делать модель больше, то перформанс ухудшается на тасках с высокочастотными роботами

ах да, и это все на джаксе :)

👀LINK
42🔥2
Unsupervised-to-Online Reinforcement Learning

проблема смены распределения - очень неприятна в классическом супервайзд лернинге, а если дело доходит и до рл: Oh Lord, our redemption. Be our protection. Direct our minds by your gracious presence.

такое принято называйть оффлайн-ту-онлайн рл: обучали на оффлайн датасете, пора и дотюнить на онлайн данных. но это чревато обычно резким сбросом в результате в самом начале тюнинга, будто можно было и не пробовать претренить (подробнее об этом можете чекнуть здесь)

но Seohong Park & Co. решили пересмотреть парадигму: давайте тюнить в более классическом для мл сетапе ансупервайзд алгоритмы. супер! а как такое получить в рл и почему это может быть выгоднее?

- да так просто легче в долгосроке, получаем одну претрен ансупервайзд модель, которую можно тюнить на многие-многие сингл онлайн таски
- интуитивно внутренние репрезентации ансупервайзд метода лучше чем сингл-таск оффлайн метода в силу ограниченности покрытия датасета пространств + ограниченности по таске. как заверяют авторы, даже ограниченность оффлайн датасета несильно мешает ансупервайзд моделям осуществлять фит латентного пространства состояний
- да и потому что Seohong Park дальше протягивает свою идею (которая действительно хороша)

окей, что же взять за основу ансупервайзд метода? сота на данный момент - HILP (мы писали про него здесь, а еще кстати можете прочитать про это), который способен понять про многие скиллы в непрерывном латентном пространстве

далее это все смещается в сторону онлайн рл в 2 этапа

1. находится “латентный скилл”, который больше всего соответствует downstream таске при помощи реварда (еще конечно встает вопрос о доступности такого ревард датасета в реальных сценариях, особенно тогда, когда используют ансупервайзд модель в силу (возможного) отсутствия ревардов)
2. рескейлятся реварды онлайн и ансупервайзд датасетов (тут делали z-нормализацию), чтобы обучение точно шло по-честному и не было доп нестабильностей. под ансупервайзд ревардом подразумевается intrinsic reward, который склоняет агента двигаться во всех направлениях в латентном пространстве состояний

ну и вроде есть неплохое улучшение во многих энвах, только кода нет :)))))

вообще идея выглядит супер интересно и свежо + сдвигает рл все больше и больше в сторону нлп и св областей в плане инсайтов насчет претрена и скрытых репрезентаций + все больше витает в воздухе ощущение о необходимости фаундейшн моделей в обучении с подкреплением

👀LINK
4211
Autonomous Drifting with 3 Minutes of Data via Learned Tire Models

совместить физику шин с нейронками для решения диффуров чтобы научиться за 3 минуты дрифтить со скоростью 70 км/ч? - Да!

вообще идея супер интересная и не особо понятная, пока не попытаешься самому такое заимплементить

поскольку такая концепция автономной тачки дрифтующей сама по себе сложная по моделированию, ибо углы/скорости скольжения, вращения колес, крутящие моменты, комбинированные режимы скольжения и остальное так просто не засунуть в нейронку, то требуется сперва сделать физ модель, которую можно будет аппроксимировать нейронкой

почему же решили прикрутить Neural Ordinary Differential Equations? как я понял, основная идея в том, чтобы иметь возможность предиктить точки перегиба относительно моделирования скольжения, при том чтобы свойства выпуклости/вогнутости действительно сохранялись, а силы, которые действуют на тачку, уже далее можно получить из интегрирования + идет введение ограничений на максимальную амплитуду силы, чтобы не убирать из уравнения действие трения

сложно-сложно, но прикольно. к тому же у них и с этим сетапом завелось не так, как они хотели, потому они ограничивают семейство решений на то, что называется ExpTanh, чтобы в лишний раз не интегрировать ниче в пайплайне

что в итоге? достаточно 3 минуты подрифтить на тачке, чтобы затем на несколько секунд (как уверяют авторы) модель хорошо зафиттилась. вызывает правда вопросы, как такое расширить на онлайн лернинг сетап (ибо силы начинают со временем по-другому действовать на шины в силу изнашиваемости), но наверное что-то не менее легкое придумать можно

👀LINK
421
Learning Compressed Transforms with Low Displacement Rank

rizzearch throwback

как говорится, хочешь понять человека - прочитай все его папиры в хронологическом порядке. а такого человека-феномена как Три Дао, по нашему мнению, стоит понимать (хотя бы чуть-чуть)

еще до того, как появилась лора, ≥5 лет назад низкоранговые матрицы все равно использовали в дип лернинге. например, для придания какой-то инвариантности или снижения количества параметров. суть еще в том, что такие веса были фиксированы. но данная папира решила это пересмотреть и сделать их обучаемыми, а точнее сделать обучаемыми веса в контексте low displacement rank (определение на первом скриншоте)

so, для этого им пришлось нехило попотеть - моделируют классическую dense матрицу весов при помощи четырех низкоранговых (две из которых тридиагональны или субдиагональны), а matrix-vector product операции производят через связь с матрицами Крылова и свой инференс (с куда кернелами) в “почти линейное время” + не забыли это все приправить теорией о том, что это ускоряет обучение и можно впихивать меньше данных (и даже VC дименшн связан)

экспериментят с млп, свертками и рнн ⇒ количество параметров снижается в несколько раз, а качество качество ухудшается ненамного (утверждают даже, что может при 20-ти кратном снижении кол-ва параметров есть улучшение в перформансе, но это на игрушечной таске)

но почему это не вошло в повсеместное использование? уже тогда появлялись фаундейшн модели, которые обучались и без этой махинации, от которых было удобнее отталкиваться попытке ужать модели при помощи дистилляции и квантизации. но это только наше мнение, если же есть такая задача, где надо с нуля сделать модель с жестким ограничением по количеству параметров, то (возможно) этот метод имеет место быть

👀LINK
853