Forwarded from Агенты ИИ | AGI_and_RL
A Survey on Causal Reinforcement Learning
https://arxiv.org/abs/2302.05209
10 Feb 2023
—-
While Reinforcement Learning (RL) achieves tremendous success in sequential decision-making problems of many domains, it still faces key challenges of data inefficiency and the lack of interpretability. Interestingly, many researchers have leveraged insights from the causality literature recently, bringing forth flourishing works to unify the merits of causality and address well the challenges from RL. As such, it is of great necessity and significance to collate these Causal Reinforcement Learning (CRL) works, offer a review of CRL methods, and investigate the potential functionality from causality toward RL. In particular, we divide existing CRL approaches into two categories according to whether their causality-based information is given in advance or not. We further analyze each category in terms of the formalization of different models, ranging from the Markov Decision Process (MDP), Partially Observed Markov Decision Process (POMDP), Multi-Arm Bandits (MAB), and Dynamic Treatment Regime (DTR). Moreover, we summarize the evaluation matrices and open sources while we discuss emerging applications, along with promising prospects for the future development of CRL.
https://arxiv.org/abs/2302.05209
10 Feb 2023
—-
While Reinforcement Learning (RL) achieves tremendous success in sequential decision-making problems of many domains, it still faces key challenges of data inefficiency and the lack of interpretability. Interestingly, many researchers have leveraged insights from the causality literature recently, bringing forth flourishing works to unify the merits of causality and address well the challenges from RL. As such, it is of great necessity and significance to collate these Causal Reinforcement Learning (CRL) works, offer a review of CRL methods, and investigate the potential functionality from causality toward RL. In particular, we divide existing CRL approaches into two categories according to whether their causality-based information is given in advance or not. We further analyze each category in terms of the formalization of different models, ranging from the Markov Decision Process (MDP), Partially Observed Markov Decision Process (POMDP), Multi-Arm Bandits (MAB), and Dynamic Treatment Regime (DTR). Moreover, we summarize the evaluation matrices and open sources while we discuss emerging applications, along with promising prospects for the future development of CRL.
🎉1
Forwarded from еба́ные идеи для резерча
Dutch Rudder as an Acyclic Causal Model
Reinforcement Learning from Passive Data via Latent Intentions
https://arxiv.org/abs/2304.04782
https://arxiv.org/abs/2304.04782
Survival Instinct in Offline Reinforcement Learning
https://arxiv.org/abs/2306.03286
https://arxiv.org/abs/2306.03286
❤1🔥1
causality links
👋 we finally released our offline RL library with SOTA algorithms, so if you're into this stuff, check it out - single-file implementations - benchmarked on D4RL datasets - wandb reports with full metric logs (so that you don't need to rely on final performance…
New major CORL update!
🍏 Added offline benchmarks for 30 datasets covering Gym-MuJoCo, Maze2D, AntMaze, and Adroit
🍎 Implemented and benchmarked 5 offline-to-online algorithms on 10 datasets
Key takeaways:
🍒 IQL is strongest on average, and works pretty good in offline-to-online setup
🍒 AWAC is often missed in the literature, but performs strong in the offline setup
🍒 CQL is a nightmare but if tuned and tweaked (for a couple of months) works well
https://github.com/corl-team/CORL
🍏 Added offline benchmarks for 30 datasets covering Gym-MuJoCo, Maze2D, AntMaze, and Adroit
🍎 Implemented and benchmarked 5 offline-to-online algorithms on 10 datasets
Key takeaways:
🍒 IQL is strongest on average, and works pretty good in offline-to-online setup
🍒 AWAC is often missed in the literature, but performs strong in the offline setup
🍒 CQL is a nightmare but if tuned and tweaked (for a couple of months) works well
https://github.com/corl-team/CORL
❤4
Supervised Pretraining Can Learn In-Context Reinforcement Learning
https://arxiv.org/abs/2306.14892
https://arxiv.org/abs/2306.14892
❤2👍2
Forwarded from Жёлтый AI
ICML День #1: Спонсоры, спонсоры, спонсоры
Привет, это @vkurenkov. Так вышло, что я второй год подряд катаюсь на ICML рассказывать про наши новые статьи. А в этот раз я, кажется, еще созрел рассказать как проходит сама конференция. В течение недели будет много постов и фоточек, где буду подсвечивать прикольные вещи. Stay tuned.
Первый день — это всегда про спонсоров конференции: Google, Citadel, Amazon, DeepMind, Microsoft и весь другой BigTech рассказывают про то какие крутые вещи они у себя делают и почему нужно идти работать именно к ним (прим. редакции – вы-то знаете, что идти нужно к нам). Cамый движ потом происходит в Expo Hall, где каждый может подлететь к ним пообщаться. В довесок вам еще отгрузят пачку стикеров или футболку.
Из интересного, что увидел в первый день (а интересное для меня RL, sorry):
1. Sony показывали демку того как они с помощью RL решили Grand Turismo. Из любопытного — у них есть отдельная группа, которая нарешивает разные игры и может утаскивать к себе в команду инженеров, которые делали эти игры — well, it’s Sony. Из приятного, оказалось, что создатель d3rlpy работает в этой группе и любит наш CORL. Молодец, уважаю. 🤙
2. Microsoft в очередной раз (2 или 3 год подряд?) рассказывали про свою библиотеку для бандитов Vowpal Wabbit: этот раз они умудрились сделать интеграцию с LLM, для оптимизации переменных в промптах, что выглядит любопытно и позволяет нативным образом накрутить RL поверх LLM для переменных частей, добиваясь персонализации через промпты 🤔
Привет, это @vkurenkov. Так вышло, что я второй год подряд катаюсь на ICML рассказывать про наши новые статьи. А в этот раз я, кажется, еще созрел рассказать как проходит сама конференция. В течение недели будет много постов и фоточек, где буду подсвечивать прикольные вещи. Stay tuned.
Первый день — это всегда про спонсоров конференции: Google, Citadel, Amazon, DeepMind, Microsoft и весь другой BigTech рассказывают про то какие крутые вещи они у себя делают и почему нужно идти работать именно к ним (прим. редакции – вы-то знаете, что идти нужно к нам). Cамый движ потом происходит в Expo Hall, где каждый может подлететь к ним пообщаться. В довесок вам еще отгрузят пачку стикеров или футболку.
Из интересного, что увидел в первый день (а интересное для меня RL, sorry):
1. Sony показывали демку того как они с помощью RL решили Grand Turismo. Из любопытного — у них есть отдельная группа, которая нарешивает разные игры и может утаскивать к себе в команду инженеров, которые делали эти игры — well, it’s Sony. Из приятного, оказалось, что создатель d3rlpy работает в этой группе и любит наш CORL. Молодец, уважаю. 🤙
2. Microsoft в очередной раз (2 или 3 год подряд?) рассказывали про свою библиотеку для бандитов Vowpal Wabbit: этот раз они умудрились сделать интеграцию с LLM, для оптимизации переменных в промптах, что выглядит любопытно и позволяет нативным образом накрутить RL поверх LLM для переменных частей, добиваясь персонализации через промпты 🤔
🤯3❤1
Forwarded from Жёлтый AI
ICML День #5: Рассказали про нашу работу
Сегодня мы выступали с постером про SAC-RND. Организаторы немного провафлили рассылку с локальной печатью плакатов и большинство людей тащили тубусы со своими огромными постерами на Гавайи сами (мы — не исключение), либо отправляли FedEx’ом. Ворчания по этому поводу от соседей по постерной сессии было много, да.
В целом всё прошло очень прикольно, вместо запланированных полутора часов я простоял почти два с половиной обясняя какие-то детали работы и отвечая на вопросы, в общей сложности активно вовлеклись человек 20-30 – это хорошие числа.
Для тех кто еще не знаком с нашей работой, вот три вещи которые надо для себя вынести:
🤙️️️️ Random Network Distillation (RND) может быть успешно использован не только для Online RL, но и для Offline RL
😎 RND может заменить ансамбль критиков: это в некоторых случаях ускоряет тренировочный процесс до 20 раз. При этом награда либо остается на уровне, либо даже становится лучше☝️
👉 Оптимизация RND может быть нестабильной, поэтому следует внимательно подобрать механизм слияния состояний и действий в RND. Мы описали разные варианты в нашей работе, так что check it out.
P.S. Если вы вдруг собираетесь когда-то поехать с постером, то всегда готовьтесь к тому, что подойдут как люди, которые вообще ничего не знают про вашу область, так и люди, которые уже прочитали вашу работу и у них есть миллион и один детальный вопрос. К нам подошли авторы работы, чьи результаты мы опровергли, чтобы уточнить, как у нас это получилось (было неловко, учитывая, что там надо было подкрутить глубину сети).
Сегодня мы выступали с постером про SAC-RND. Организаторы немного провафлили рассылку с локальной печатью плакатов и большинство людей тащили тубусы со своими огромными постерами на Гавайи сами (мы — не исключение), либо отправляли FedEx’ом. Ворчания по этому поводу от соседей по постерной сессии было много, да.
В целом всё прошло очень прикольно, вместо запланированных полутора часов я простоял почти два с половиной обясняя какие-то детали работы и отвечая на вопросы, в общей сложности активно вовлеклись человек 20-30 – это хорошие числа.
Для тех кто еще не знаком с нашей работой, вот три вещи которые надо для себя вынести:
🤙️️️️ Random Network Distillation (RND) может быть успешно использован не только для Online RL, но и для Offline RL
😎 RND может заменить ансамбль критиков: это в некоторых случаях ускоряет тренировочный процесс до 20 раз. При этом награда либо остается на уровне, либо даже становится лучше☝️
👉 Оптимизация RND может быть нестабильной, поэтому следует внимательно подобрать механизм слияния состояний и действий в RND. Мы описали разные варианты в нашей работе, так что check it out.
P.S. Если вы вдруг собираетесь когда-то поехать с постером, то всегда готовьтесь к тому, что подойдут как люди, которые вообще ничего не знают про вашу область, так и люди, которые уже прочитали вашу работу и у них есть миллион и один детальный вопрос. К нам подошли авторы работы, чьи результаты мы опровергли, чтобы уточнить, как у нас это получилось (было неловко, учитывая, что там надо было подкрутить глубину сети).
❤2🔥1