Forwarded from ду́но
Рассказываем о нашей работе принятой на ICML 2024. В деталях.
🌻Контекст🌻
In-Context RL позволяет обучать агентов способных на адаптацию к новым задачам прямо во время инференеса, то есть zero-shot. При этом не происходит обновлений весов модели или обучения Q-функции; вся адаптация вшита при обучении в механизм внимания.
Не сказка ли? Может быть, если бы не одно но: процесс сбора данных. В AD предлагается поступить так: возьмём
Но что это за число
🌻Что предлагаем мы?🌻
Чтобы облегчить сбор данных и тем самым приблизить in-context RL к применению в реальных задачах, мы предложили способ генерации историй с помощью шума.
Часто так бывает, что мы не можем решить задачу с нуля RL-ем, но имеем некоторый набор почти оптимальных демонстраций. Мы можем обучить на этом обычный Behavior Cloning, но он не будет обладать способностями к in-context, т.к. данные не содержали истории обучения. Как же теперь получить историю обучения, когда мы имеем только конечную политику эксперта?
Идея простая: давайте просто начнём постепенно добавлять больше и больше шума, то есть с вероятностью
🌻И это работает?🌻
Да.
Для тестирования мы использовали классические в in-context RL среды: Dark Room (grid-MDP), Dark Key-to-Door (grid-POMPD), Watermaze (3D-MDP). Обученный на наших данных агент приобретает способности in-context адаптации к новым задачам. Что удивительно, вы можете использовать для генерации демонстрации далекие от оптимальных. Например, наш агент в некоторых случаях смог превзойти лучший результат в данных более чем в два раза.
код – статья – постер (4k) – ilya's talk
- - —
@dunnolab
🌻Контекст🌻
In-Context RL позволяет обучать агентов способных на адаптацию к новым задачам прямо во время инференеса, то есть zero-shot. При этом не происходит обновлений весов модели или обучения Q-функции; вся адаптация вшита при обучении в механизм внимания.
Не сказка ли? Может быть, если бы не одно но: процесс сбора данных. В AD предлагается поступить так: возьмём
n задач в среде и для каждой из них обучим своего RL-ного агента. Во время обучения будем сохранять их полную историю обучения, то есть все состояния, действия и награды. Таким образом мы соберём n историй обучения, в начале которых агент не умеет ничего, а в конце уже успешно решает задачу. На них и будем обучать трансформер предсказывать следующее действие.Но что это за число
n? Какого оно порядка? Оказывается, для успешного обучения на весьма простой задаче нужно обучить около тысячи (sic!) RL агентов. Понятно, что такой подход недёшев в плане вычислений и времени.🌻Что предлагаем мы?🌻
Чтобы облегчить сбор данных и тем самым приблизить in-context RL к применению в реальных задачах, мы предложили способ генерации историй с помощью шума.
Часто так бывает, что мы не можем решить задачу с нуля RL-ем, но имеем некоторый набор почти оптимальных демонстраций. Мы можем обучить на этом обычный Behavior Cloning, но он не будет обладать способностями к in-context, т.к. данные не содержали истории обучения. Как же теперь получить историю обучения, когда мы имеем только конечную политику эксперта?
Идея простая: давайте просто начнём постепенно добавлять больше и больше шума, то есть с вероятностью
ε будем делать действие по политике, а с вероятностью 1 - ε делаем случайное действие. При этом с каждым шагом мы увеличиваем ε вплоть до единицы. Получается, что когда ε = 1 агент не умеет ничего, а при ε = 0 успешно решает задачу. Вот мы и восстановили историю (на самом деле, получили прокси историю) обучения.🌻И это работает?🌻
Да.
Для тестирования мы использовали классические в in-context RL среды: Dark Room (grid-MDP), Dark Key-to-Door (grid-POMPD), Watermaze (3D-MDP). Обученный на наших данных агент приобретает способности in-context адаптации к новым задачам. Что удивительно, вы можете использовать для генерации демонстрации далекие от оптимальных. Например, наш агент в некоторых случаях смог превзойти лучший результат в данных более чем в два раза.
код – статья – постер (4k) – ilya's talk
- - —
@dunnolab
👍34❤7❤🔥3🥱3🔥1
Love. Death. Transformers.
резерч
https://arxiv.org/abs/2407.18134 - задротская модификация контрастива с графами
https://arxiv.org/abs/2303.03846 - любопытная работа про ICL
https://arxiv.org/abs/2406.13046v2 - меняем ранк лоры на лету
https://arxiv.org/abs/2310.04400 - взрывы эмбедов на скейле рексиса
https://arxiv.org/abs/2401.09865 - лосс на патчи у контрастива
https://arxiv.org/abs/2403.19651 - инструктивный clip, оч годно
почитайте, мне понравились
https://arxiv.org/abs/2303.03846 - любопытная работа про ICL
https://arxiv.org/abs/2406.13046v2 - меняем ранк лоры на лету
https://arxiv.org/abs/2310.04400 - взрывы эмбедов на скейле рексиса
https://arxiv.org/abs/2401.09865 - лосс на патчи у контрастива
https://arxiv.org/abs/2403.19651 - инструктивный clip, оч годно
почитайте, мне понравились
arXiv.org
$\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive...
Learning good representations involves capturing the diverse ways in which data samples relate. Contrastive loss - an objective matching related samples - underlies methods from self-supervised to...
❤13🔥5👍2❤🔥1
Forwarded from На задворках
Не знаю, неиронично хочется затехать другую методичку, где все начинается с категорий и заканчивается леммой Йонеде. И по приколу расфорсить, что это настоящая методичка для абитуриентов матфака
🤮25🔥14🥴10😁4❤3👍1😢1
Love. Death. Transformers.
Почему не 7Т?
not using ruGPT3.5
not sota
* последовательность постов в другую сторону если что
not sota
* последовательность постов в другую сторону если что
😢8❤2😁2
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 RuBLiMP
Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.
В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.
Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.
👉 HF | GitHub | Статья
Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.
В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.
Завтра Олег починит модель и она начнет работать.
Завтра Олег починил модель и она начнет работать.
Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.
👉 HF | GitHub | Статья
🔥51👍2❤1🎄1
Аннушка уже подготовила датасет
Аннушка уже влила в мастер
Аннушка уже поставила трен
Аннушка уже собрала докер
Аннушка уже влила в мастер
Аннушка уже поставила трен
Аннушка уже собрала докер
🔥107😁36🤡11👎9💯5👍1🤔1
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Друзья!
Мне очень нужно в ближайшее время завершить перевод NLLB-seed с английского на русский в @crowd_translate_bot.
Как вы думаете, как можно сподвигнуть достаточно много людей потратить по полчаса своего времени во имя науки?
Мне очень нужно в ближайшее время завершить перевод NLLB-seed с английского на русский в @crowd_translate_bot.
Как вы думаете, как можно сподвигнуть достаточно много людей потратить по полчаса своего времени во имя науки?
❤11👎9🤔1
Пока кто то плодит нищету, миллиардер, амбасадор олимпиадников и просто скамер гоев плодит лысых и низких людей.
😁83 23👍5🤡5 2🤔1🐳1
Love. Death. Transformers.
Пока кто то плодит нищету, миллиардер, амбасадор олимпиадников и просто скамер гоев плодит лысых и низких людей.
Ты дрочишь? Сколько ты дрочишь? Брось, это не серьезно, это какой-то жалкий детский уровень. Я вот лично дрочу не меньше чем дважды в день. Сначала утром, сразу после ледянной ванны, а потом сразу после обеда. Вот так, понимаешь? Я это делаю, не потому что нравится, а потому что мне это надо. Ты только подумай: в голове одни цифры, с утра до ночи: 100 детей.
😁121 29🐳7🤡3🤔2❤1🍌1
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Человечество:
1) делаем автономных роботов от которых не убежать
2) …
3) Профит
1) делаем автономных роботов от которых не убежать
2) …
3) Профит
Love. Death. Transformers.
Новый робот от китайцев из unitree теперь и с колесами!!
бтв китайцы обещали до 30км/ч разогнать его, так что буквально не убежишь))
❤13 12