Does RL work yet?
430 subscribers
53 photos
9 videos
1 file
65 links
Download Telegram
Channel created
Привет! Если вдруг кто-то сюда попадет, здесь я (@howuhh) собираю ссылки на интересные мне статьи (в основном Online/Offline RL), иногда даю краткую аннотацию, еще реже обьясняю (сам себе прежде всего) чем мне статья понравилась.

В ближайшее время ревью в стиле @dlinnlp (и подобных) не будет, ибо времени нет. Для меня это скорее замена закладок, Zotero и вечно открытых вкладок. И чтобы потом по лайкам в твиттере не лазать, вспоминая где же я видел ту или иную статью.
🔥2
Channel photo updated
Просмотрел тут сабмиты на ICLR 2023, выбрал несколько интересных мне статей. Все можно посмотреть тут. А еще есть в виде t-sne графика.

1. The guide and the explorer: smart agents for resource-limited iterated batch reinforcement learning.
2. Decision S4: Efficient Sequence-Based RL via State Spaces Layers.
3. Beyond Reward: Offline Preference-guided Policy Optimization.
4. Behavior Proximal Policy Optimization.
5. Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery.
6. Evolving Populations of Diverse RL Agents with MAP-Elites.
7. Efficient Exploration using Model-Based Quality-Diversity with Gradients
8. Offline imitation learning by controlling the effective planning horizon.
9. Efficient Deep Reinforcement Learning Requires Regulating Statistical Overfitting.
10. Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier
11. Return Augmentation gives Supervised RL Temporal Compositionality
12. Offline Q-learning on Diverse Multi-Task Data Both Scales And Generalizes
13. AsymQ: Asymmetric Q-loss to mitigate overestimation bias in off-policy reinforcement learning.
14. General Policy Evaluation and Improvement by Learning to Identify Few But Crucial States.
15. Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL.
16. In-context Reinforcement Learning with Algorithm Distillation.
17. Explaining RL Decisions with Trajectories.
18. Off Policy Average Reward Actor Critic with Deterministic Policy Search.
19. Parallel Q-Learning: Scaling Off-policy Reinforcement Learning.
20. Jump-Start Reinforcement Learning.
21. Memory Gym: Partially Observable Challenges to Memory-Based Agents.
22. Highway Reinforcement Learning.
23. Towards biologically plausible Dreaming and Planning.
24. Planning with Language Models through Iterative Energy Minimization.
25. Neural Episodic Control with State Abstraction.
26. What Do We Maximize in Self-Supervised Learning And Why Does Generalization Emerge?
27. Is Conditional Generative Modeling all you need for Decision Making?
28. Hyper-Decision Transformer for Efficient Online Policy Adaptation.
29. Token Turing Machines.

Особо крутые на мой взгляд 4, 9, 10, 16. Может быть еще 29.
On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning.

Интересно тем, что побили Efficient Zero на Atari 100k, а это непросто. Хотя сравнение не совсем честное, они все таки предобучаются заранее на каком-то сэмпле из сред.
Does RL work yet? pinned «Привет! Если вдруг кто-то сюда попадет, здесь я (@howuhh) собираю ссылки на интересные мне статьи (в основном Online/Offline RL), иногда даю краткую аннотацию, еще реже обьясняю (сам себе прежде всего) чем мне статья понравилась. В ближайшее время ревью…»
What Makes Convolutional Models Great on Long Sequence Modeling?

Очередное упрощение и улучшение модели S4 для длинных последовательностей. Выходит быстрее и точнее, без всяких cuda кернелов.

Все жду когда они станут достаточно понятными для простых смертных, чтобы я мог попробовать их в RL.
Simplified State Space Layers for Sequence Modeling.

Раз уж сегодня день S4, вот еще одно упрощение. Сильно сложнее (имхо), чем предыдущее, но проще чем сам S4 и тоже с хорошими результатами. Кстати в табличке можно заметить аж еще 3 других S4-подобных модели.

Зоопарк растет быстро.
Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations.

Первый, как они заявляют, подход, который достигает значительно больших чем эксперт наград в Imitation Learning сеттинге, имея только экспертные демонстрации без наград.

Идея простая - учат классификатор ранжировать между собой траектории, используют это как награду. Интересно то, что классификатор генерализуется и может ранжировать траектории лучше или хуже, чем были в обучающей выборке. За счет этого и перфоманс лучше, чем у эксперта.
Rapid Task-Solving in Novel Environments.

Люблю подходы основанные на non-parametric памяти, всегда получается что-то интересно (но не факт, что простое).
In-context Reinforcement Learning with Algorithm Distillation.

В общем как и предсказывалось, это в самом деле оказался дипмайнд. Простая идея, далеко идущие последствия. Думаю это станет мейнстримом в недалеком будущем оффлайн RL.

Самый большой вопрос здесь, а как самому на такие простые (но важные!!!) идеи натыкаться? В конце концов от таких всегда больше импакта, т.к. они лучше генерализуются, в отличие от сложных штук.
👍2
🔥1
Policy Evaluation Networks.

Вместо критика, который зависит от состояния V(s) и оценивает одну политику, учат критика, который зависит от политики V(policy_weights), но оценивает будущую награду только из начальных состояний.

Собирают датасет [агент, его средняя суммарная награда], учат предсказывать награду. После обучения можно оптимизировать веса актора полностью оффлайн. Пихать полностью веса дорого, поэтому для описания политики используют эмбеддинг состоящий из действий, которые она предпринимает в каких-то состояниях.

Выглядит интересно, на простых задачах генерализуется из датасета рандомных политик. Но в целом пока не придумал как это можно использовать.
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective

На мой взгляд очень интересная и полезная работа. С помощью магии математики выводят общий лосс (!!!) для политики, динамики, энкодера стейтов и все это в латентном пространстве, без необходимости реконстракшена состояний (это особенно важно в картинках, на это уходит слишком много ресурсов обычно). Поэтому работает шустро, быстрее чем REDQ или MBPO. Отдельно выводят лосс для Offline RL.

В плане кодинга правда все еще выходит гораздо сложнее, чем model-free подходы, за час как SAC не закодить. Но результаты хорошие. Жалко не сравниваются с DreamerV2.

EDIT:
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL
еще очень похожая статья с почти идентичными идеями