Does RL work yet? – Telegram

Does RL work yet?

430 subscribers

53 photos

9 videos

1 file

65 links

rl research by @howuhh

howuhh.github.io | dunnolab.ai

Download Telegram

About

Blog

Apps

Platform

Does RL work yet?

430 subscribers

Does RL work yet?

Channel created

14:20

Does RL work yet?

Привет! Если вдруг кто-то сюда попадет, здесь я (@howuhh) собираю ссылки на интересные мне статьи (в основном Online/Offline RL), иногда даю краткую аннотацию, еще реже обьясняю (сам себе прежде всего) чем мне статья понравилась.

В ближайшее время ревью в стиле @dlinnlp (и подобных) не будет, ибо времени нет. Для меня это скорее замена закладок, Zotero и вечно открытых вкладок. И чтобы потом по лайкам в твиттере не лазать, вспоминая где же я видел ту или иную статью.

🔥2

338 viewsedited 14:20

Does RL work yet?

Channel photo updated

14:25

Does RL work yet?

Просмотрел тут сабмиты на ICLR 2023, выбрал несколько интересных мне статей. Все можно посмотреть тут. А еще есть в виде t-sne графика.

1. The guide and the explorer: smart agents for resource-limited iterated batch reinforcement learning.
2. Decision S4: Efficient Sequence-Based RL via State Spaces Layers.
3. Beyond Reward: Offline Preference-guided Policy Optimization.
4. Behavior Proximal Policy Optimization.
5. Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery.
6. Evolving Populations of Diverse RL Agents with MAP-Elites.
7. Efficient Exploration using Model-Based Quality-Diversity with Gradients
8. Offline imitation learning by controlling the effective planning horizon.
9. Efficient Deep Reinforcement Learning Requires Regulating Statistical Overfitting.
10. Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier
11. Return Augmentation gives Supervised RL Temporal Compositionality
12. Offline Q-learning on Diverse Multi-Task Data Both Scales And Generalizes
13. AsymQ: Asymmetric Q-loss to mitigate overestimation bias in off-policy reinforcement learning.
14. General Policy Evaluation and Improvement by Learning to Identify Few But Crucial States.
15. Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL.
16. In-context Reinforcement Learning with Algorithm Distillation.
17. Explaining RL Decisions with Trajectories.
18. Off Policy Average Reward Actor Critic with Deterministic Policy Search.
19. Parallel Q-Learning: Scaling Off-policy Reinforcement Learning.
20. Jump-Start Reinforcement Learning.
21. Memory Gym: Partially Observable Challenges to Memory-Based Agents.
22. Highway Reinforcement Learning.
23. Towards biologically plausible Dreaming and Planning.
24. Planning with Language Models through Iterative Energy Minimization.
25. Neural Episodic Control with State Abstraction.
26. What Do We Maximize in Self-Supervised Learning And Why Does Generalization Emerge?
27. Is Conditional Generative Modeling all you need for Decision Making?
28. Hyper-Decision Transformer for Efficient Online Policy Adaptation.
29. Token Turing Machines.

Особо крутые на мой взгляд 4, 9, 10, 16. Может быть еще 29.

308 viewsedited 09:56

Does RL work yet?

On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning.

Интересно тем, что побили Efficient Zero на Atari 100k, а это непросто. Хотя сравнение не совсем честное, они все таки предобучаются заранее на каком-то сэмпле из сред.

nicklashansen.github.io

On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning

246 viewsedited 13:46

Does RL work yet?

Does RL work yet? pinned «Привет! Если вдруг кто-то сюда попадет, здесь я (@howuhh) собираю ссылки на интересные мне статьи (в основном Online/Offline RL), иногда даю краткую аннотацию, еще реже обьясняю (сам себе прежде всего) чем мне статья понравилась. В ближайшее время ревью…»

17:57

Does RL work yet?

What Makes Convolutional Models Great on Long Sequence Modeling?

Очередное упрощение и улучшение модели S4 для длинных последовательностей. Выходит быстрее и точнее, без всяких cuda кернелов.

Все жду когда они станут достаточно понятными для простых смертных, чтобы я мог попробовать их в RL.

233 viewsedited 09:33

Does RL work yet?

Simplified State Space Layers for Sequence Modeling.

Раз уж сегодня день S4, вот еще одно упрощение. Сильно сложнее (имхо), чем предыдущее, но проще чем сам S4 и тоже с хорошими результатами. Кстати в табличке можно заметить аж еще 3 других S4-подобных модели.

Зоопарк растет быстро.

220 viewsedited 10:06

Does RL work yet?

Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations.

Первый, как они заявляют, подход, который достигает значительно больших чем эксперт наград в Imitation Learning сеттинге, имея только экспертные демонстрации без наград.

Идея простая - учат классификатор ранжировать между собой траектории, используют это как награду. Интересно то, что классификатор генерализуется и может ранжировать траектории лучше или хуже, чем были в обучающей выборке. За счет этого и перфоманс лучше, чем у эксперта.

Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations

D-REX Project Page

Code and project page for D-REX algorithm from the paper “Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations” presented at CoRL 2019.

212 viewsedited 10:00

Does RL work yet?

Evaluating Long-Term Memory in 3D Mazes. [code]

Новый бенчмарк для тестирования памяти агентов.

GitHub - jurgisp/memory-maze: Evaluating long-term memory of reinforcement learning algorithms

Evaluating long-term memory of reinforcement learning algorithms - jurgisp/memory-maze

236 viewsedited 13:57

Does RL work yet?

Transformers are Meta-Reinforcement Learners.

240 views17:29

Does RL work yet?

Rapid Task-Solving in Novel Environments.

Люблю подходы основанные на non-parametric памяти, всегда получается что-то интересно (но не факт, что простое).

244 viewsedited 18:44

Does RL work yet?

In-context Reinforcement Learning with Algorithm Distillation.

В общем как и предсказывалось, это в самом деле оказался дипмайнд. Простая идея, далеко идущие последствия. Думаю это станет мейнстримом в недалеком будущем оффлайн RL.

Самый большой вопрос здесь, а как самому на такие простые (но важные!!!) идеи натыкаться? В конце концов от таких всегда больше импакта, т.к. они лучше генерализуются, в отличие от сложных штук.

👍2

235 viewsedited 16:27

Does RL work yet?

🔥1

206 views16:28

Does RL work yet?

Learning General World Models in a Handful of Reward-Free Deployments.

Learning General World Models in a Handful of Reward-free Deployments

213 views16:47

Does RL work yet?

Policy Evaluation Networks.

Вместо критика, который зависит от состояния V(s) и оценивает одну политику, учат критика, который зависит от политики V(policy_weights), но оценивает будущую награду только из начальных состояний.

Собирают датасет [агент, его средняя суммарная награда], учат предсказывать награду. После обучения можно оптимизировать веса актора полностью оффлайн. Пихать полностью веса дорого, поэтому для описания политики используют эмбеддинг состоящий из действий, которые она предпринимает в каких-то состояниях.

Выглядит интересно, на простых задачах генерализуется из датасета рандомных политик. Но в целом пока не придумал как это можно использовать.

224 viewsedited 15:26

Does RL work yet?

219 views15:26

Does RL work yet?

Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective

На мой взгляд очень интересная и полезная работа. С помощью магии математики выводят общий лосс (!!!) для политики, динамики, энкодера стейтов и все это в латентном пространстве, без необходимости реконстракшена состояний (это особенно важно в картинках, на это уходит слишком много ресурсов обычно). Поэтому работает шустро, быстрее чем REDQ или MBPO. Отдельно выводят лосс для Offline RL.

В плане кодинга правда все еще выходит гораздо сложнее, чем model-free подходы, за час как SAC не закодить. Но результаты хорошие. Жалко не сравниваются с DreamerV2.

EDIT:
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL
еще очень похожая статья с почти идентичными идеями

243 viewsedited 09:50

Does RL work yet?

225 views09:50