rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
Language Model Can Listen While Speaking

окей, есть голосовые ассистенты, которые могут в реальном времени перебивать человечка - например от опенаи, а есть ли что-то такое в опенсурсе? теперь да, вот эта папира как раз

что смогли сделать авторы? модель может слушать в реал тайме и отдавать инициативу в разговоре юзеру даже при его зашумленном сигнале.

реализовали при помощи ССЛ энкодеров и только каузальных трансформеров, отказываясь от некаузальной части. при том энкодер один и тот же, что для таргет речи, что для аудио юзера, предварительно эмбеддинги таргет спича квантизованы для получения дискретных токенов (видимо иначе у них инференс был нестабилен хз), но для юзерского потока такой операции нет, несмотря на то, что он как раз он и подвергается зашумлению

качество более-менее норм, не опенаи конечно, но это по сути первопроходцы в такой обалсти

жаль что кода нет, демка

👀LINK
👍511
Transferring Knowledge from Large Foundation Models to Small Downstream Models

авторы задались довольно хорошим вопросом и смогли ответить на него технической реализацией: почему во время knowledge distillation мы заставляем студента выучивать вообще все, что делает тичер, а не только полезное?

и в общем идея такая - давайте вычленять только те фичи, что полезны для downstream таски, при этом не ругать модель за то, что она забыла некоторые фичи большой модели, но только за “лишние” фичи

делают это все через формализацию mutual information + variational encoder + полируют это все через кернел дистанс

из интересного еще стоит отметить, что легко можно дистиллить знания из нескольких моделей одновременно, просто конкатив их фичи - формулы остаются те же + авторы докладывают о том, что это полезнее для св, чем для нлп. спекулируют, что нлп фаундейшн модели в бОльшей степени похожи между собой, чем св модели. в принципе довольно логично и по архитектурам, и по токенайзерам, и по датасетам, но недостаточно (та может это и не так важно, но просто интересно). но, например, здесь про такой феномен ничего не говорят

имхо стоит попробовать в своих задачах

👀LINK
👍84🔥2
A Super-human Vision-based Reinforcement Learning Agent for Autonomous Racing in Gran Turismo

как насчет рл алгоса, который может обгонять 130к юзеров на трех треках в гран туризмо? при том в качестве инпутов у него только локальные данные - показатели с тачки + ргб картинка

но все чуть хитрее - реализован Quantile Regression SAC, в котором критик имеет доступ к глобальным фичам (которые связаны с оверолл траекторией по конкретному треку), что помогает пожестче тренить актора

очень четко описано создание реварда с 5 фичами и 4 коэффициентами (даже представить страшно сколько времени у них ушло на их подбор)

только чекните какие тачки, это просто кайфы. вот он современный ресерч в сони - заставь нейронки обыгрывать всех в гран туризмо и получай за это зп

еще в аппендиксе интересно прочитать, что они как будто использовали 20 пс4 для сбора данных. это еще не учитывая, сколько времени и ресурсов ушло на сбор и обучение. в общем, статейка получилась недешевой

👀LINK
7
Offline RL for Natural Language Generation with Implicit Language Q Learning

статья по алайменту от рлщиков, где даже не фигурирует слово “алаймент”

вообще в начале они дают интересное обоснование того, почему рл очень хорошо можно приложить в нлп к диалоговой задаче - поскольку это последовательность интеракций, где нужно прийти к оптимальному решению за всю историю, а не только за следующий шаг

здесь авторы так же приходят в выводу, что только сфт не помогает получить желаемые результаты от модели на таске → они применяют оффлайн рл и все становится оки (почти)

поскольку соавтор этой статьи Илья Костриков, который сделал IQL, сюда же сразу попробовали применить и его. так же они сравнили и с другими бейзлайнами, как CQL, DT + %BC (behavior cloning, по сути сфт, а процент означает, что данные еще и предварительно фильтруют по реварду)

еще в процессе работы появилась загвоздка - метод напрямую не заводится. если обучать основную сеть (которая уже прошла этап сфт), то все было очень нестабильно ⇒ не знаю, можно ли назвать это костылем, но авторы решили это тем, что не обучают policy сетку, а оставляют только Q & V головы для обучения, чьи аутпуты затем используются для перерасчета логитов ллмки (как и подразумевает iql)

к тому же в этом перерасчете сохраняется гипер температуры (который не совсем тот, что в стандартном сетапе, но преподносит ту же логику), с которым можно играть вариативностью ответов + появилась устойчивость к “стохастичности реварда” (неоднородности человеческих преференций), как интуитивно и эмпирически показывают авторы. но я скептичен насчет последнего пункта, ибо само составление ревардов под датасеты не столь чувствительно - скорее просто сигнал награды, которые авторы сами и придумали, тяжело перекрыть разностью в “мнения разных людей”

и по времени обучения это все в 2 раза медленнее, чем простой файнтюн, а как это соотносится с более-менее привычными методами алаймента неизвестно - скорее всего не очень так как уже на 60м параметрах метод работает не так, как полагается по оффлайн рл методологии. но who knows, можно спекулировать, что надо просто встроить эту вещь более грамотно

👀LINK
In-Context Imitation Learning
via Next-Token Prediction


мы уже ни раз упоминали про такую хайповую область, как ин-контекст рл.

и теперь авторы из беркли и не только смогли расширить ее до применения в роботике, то есть в реальном мире (а не только в джакс средах хехе)

только тут это не ин-контекст рл, а ин-контекст имитейшн лернинг. в трейн датасете 29 комплексных тасок, которые состоят из 6 примитивных и собирались человеком, на евале таски составлялись из 3 примитивных

общий пайплайн примерно напоминает то, что уже было: в качестве контекста берется несколько траекторий, ргб картинки + проприоцепция обрабатываются как разные модальности, делаем пулинг с аттеншном и получаем что-то типа state. скармливаем последовательность вместе с действиями и обучаем в классике next-token prediction: predict a_t+1 given (s_1, a_1, s_2, a_2… s_t-1, a_t-1, s_t). разве что сигнала реварда нет, потому что это имитейшн лернинг

серьезная разница есть так же и во время инференса - в качестве “системного промпта” подаются трейн траектории на других комплексных тасках, чтобы агент не улетел на новой тестовой в накопление ошибки, которое так часто встречается в IL. и этот интересный инсайт работает, что прикольно

ждем скейла по ускорению работы трансформера (как и здесь) + скейла по тому, чтобы была генерализация на неизвестные прежде примитивные таски (что сложнее, ибо наверняка придется повышать их количество до порядка, сравнимого с порядком трейновых тасок для ин-контекст рл методов - сотни и тысячи)

👀LINK