causality links

New major CORL update!

🍏 Added offline benchmarks for 30 datasets covering Gym-MuJoCo, Maze2D, AntMaze, and Adroit

🍎 Implemented and benchmarked 5 offline-to-online algorithms on 10 datasets

Key takeaways:

🍒 IQL is strongest on average, and works pretty good in offline-to-online setup

🍒 AWAC is often missed in the literature, but performs strong in the offline setup

🍒 CQL is a nightmare but if tuned and tweaked (for a couple of months) works well

https://github.com/corl-team/CORL

❤4

646 views15:30

causality links

https://twitter.com/vladkurenkov/status/1669826074488782849

❤1🔥1

728 views22:18

causality links

Supervised Pretraining Can Learn In-Context Reinforcement Learning
https://arxiv.org/abs/2306.14892

❤2👍2

625 views06:42

causality links

Forwarded from Жёлтый AI

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

ICML День #1: Спонсоры, спонсоры, спонсоры

Привет, это @vkurenkov. Так вышло, что я второй год подряд катаюсь на ICML рассказывать про наши новые статьи. А в этот раз я, кажется, еще созрел рассказать как проходит сама конференция. В течение недели будет много постов и фоточек, где буду подсвечивать прикольные вещи. Stay tuned.

Первый день — это всегда про спонсоров конференции: Google, Citadel, Amazon, DeepMind, Microsoft и весь другой BigTech рассказывают про то какие крутые вещи они у себя делают и почему нужно идти работать именно к ним (прим. редакции – вы-то знаете, что идти нужно к нам). Cамый движ потом происходит в Expo Hall, где каждый может подлететь к ним пообщаться. В довесок вам еще отгрузят пачку стикеров или футболку.

Из интересного, что увидел в первый день (а интересное для меня RL, sorry):

1. Sony показывали демку того как они с помощью RL решили Grand Turismo. Из любопытного — у них есть отдельная группа, которая нарешивает разные игры и может утаскивать к себе в команду инженеров, которые делали эти игры — well, it’s Sony. Из приятного, оказалось, что создатель d3rlpy работает в этой группе и любит наш CORL. Молодец, уважаю. 🤙

2. Microsoft в очередной раз (2 или 3 год подряд?) рассказывали про свою библиотеку для бандитов Vowpal Wabbit: этот раз они умудрились сделать интеграцию с LLM, для оптимизации переменных в промптах, что выглядит любопытно и позволяет нативным образом накрутить RL поверх LLM для переменных частей, добиваясь персонализации через промпты 🤔

🤯3❤1

624 views09:59

causality links

Forwarded from Жёлтый AI

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

ICML День #5: Рассказали про нашу работу

Сегодня мы выступали с постером про SAC-RND. Организаторы немного провафлили рассылку с локальной печатью плакатов и большинство людей тащили тубусы со своими огромными постерами на Гавайи сами (мы — не исключение), либо отправляли FedEx’ом. Ворчания по этому поводу от соседей по постерной сессии было много, да.

В целом всё прошло очень прикольно, вместо запланированных полутора часов я простоял почти два с половиной обясняя какие-то детали работы и отвечая на вопросы, в общей сложности активно вовлеклись человек 20-30 – это хорошие числа.

Для тех кто еще не знаком с нашей работой, вот три вещи которые надо для себя вынести:

🤙️️️️ Random Network Distillation (RND) может быть успешно использован не только для Online RL, но и для Offline RL

😎 RND может заменить ансамбль критиков: это в некоторых случаях ускоряет тренировочный процесс до 20 раз. При этом награда либо остается на уровне, либо даже становится лучше☝️

👉 Оптимизация RND может быть нестабильной, поэтому следует внимательно подобрать механизм слияния состояний и действий в RND. Мы описали разные варианты в нашей работе, так что check it out.

P.S. Если вы вдруг собираетесь когда-то поехать с постером, то всегда готовьтесь к тому, что подойдут как люди, которые вообще ничего не знают про вашу область, так и люди, которые уже прочитали вашу работу и у них есть миллион и один детальный вопрос. К нам подошли авторы работы, чьи результаты мы опровергли, чтобы уточнить, как у нас это получилось (было неловко, учитывая, что там надо было подкрутить глубину сети).

❤2🔥1

764 views08:45

causality links

Forwarded from Жёлтый AI

Тинькофф X NeurIPS 2023

На нашем ивенте в июле, Saint Reinforcenburg, мы рассказывали про новые статьи, которые мы отправляем на какую-то конференцию. Так вот, все три наши статьи были приняты на NeurIPS 2023.

Если вы занимаетесь Reinforcement Learning, то у нас по этому случаю несколько подгонов: новый Offline/Offline-to-Online метод, обновленная документация для CORL’a, и записи наших выступлений.

🛠️ Revisiting the Minimalist Approach to Offline Reinforcement Learning [arXiv, видео, код]

🤖 CORL: Research-oriented Deep Offline Reinforcement Learning Library [arXiv, видео, код]

🧙 Katakomba: Tools and Benchmarks for Data-Driven NetHack [arXiv, видео, код]

🔥3❤1👍1

824 views16:06

About

Blog

Apps

Platform