Does RL work yet? – Telegram

Does RL work yet?

430 subscribers

53 photos

9 videos

1 file

65 links

rl research by @howuhh

howuhh.github.io | dunnolab.ai

Download Telegram

About

Blog

Apps

Platform

Does RL work yet?

430 subscribers

Does RL work yet?

Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations.

Первый, как они заявляют, подход, который достигает значительно больших чем эксперт наград в Imitation Learning сеттинге, имея только экспертные демонстрации без наград.

Идея простая - учат классификатор ранжировать между собой траектории, используют это как награду. Интересно то, что классификатор генерализуется и может ранжировать траектории лучше или хуже, чем были в обучающей выборке. За счет этого и перфоманс лучше, чем у эксперта.

Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations

D-REX Project Page

Code and project page for D-REX algorithm from the paper “Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations” presented at CoRL 2019.

212 viewsedited 10:00

Does RL work yet?

Evaluating Long-Term Memory in 3D Mazes. [code]

Новый бенчмарк для тестирования памяти агентов.

GitHub - jurgisp/memory-maze: Evaluating long-term memory of reinforcement learning algorithms

Evaluating long-term memory of reinforcement learning algorithms - jurgisp/memory-maze

236 viewsedited 13:57

Does RL work yet?

Transformers are Meta-Reinforcement Learners.

240 views17:29

Does RL work yet?

Rapid Task-Solving in Novel Environments.

Люблю подходы основанные на non-parametric памяти, всегда получается что-то интересно (но не факт, что простое).

244 viewsedited 18:44

Does RL work yet?

In-context Reinforcement Learning with Algorithm Distillation.

В общем как и предсказывалось, это в самом деле оказался дипмайнд. Простая идея, далеко идущие последствия. Думаю это станет мейнстримом в недалеком будущем оффлайн RL.

Самый большой вопрос здесь, а как самому на такие простые (но важные!!!) идеи натыкаться? В конце концов от таких всегда больше импакта, т.к. они лучше генерализуются, в отличие от сложных штук.

👍2

235 viewsedited 16:27

Does RL work yet?

🔥1

206 views16:28

Does RL work yet?

Learning General World Models in a Handful of Reward-Free Deployments.

Learning General World Models in a Handful of Reward-free Deployments

213 views16:47

Does RL work yet?

Policy Evaluation Networks.

Вместо критика, который зависит от состояния V(s) и оценивает одну политику, учат критика, который зависит от политики V(policy_weights), но оценивает будущую награду только из начальных состояний.

Собирают датасет [агент, его средняя суммарная награда], учат предсказывать награду. После обучения можно оптимизировать веса актора полностью оффлайн. Пихать полностью веса дорого, поэтому для описания политики используют эмбеддинг состоящий из действий, которые она предпринимает в каких-то состояниях.

Выглядит интересно, на простых задачах генерализуется из датасета рандомных политик. Но в целом пока не придумал как это можно использовать.

224 viewsedited 15:26

Does RL work yet?

219 views15:26

Does RL work yet?

Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective

На мой взгляд очень интересная и полезная работа. С помощью магии математики выводят общий лосс (!!!) для политики, динамики, энкодера стейтов и все это в латентном пространстве, без необходимости реконстракшена состояний (это особенно важно в картинках, на это уходит слишком много ресурсов обычно). Поэтому работает шустро, быстрее чем REDQ или MBPO. Отдельно выводят лосс для Offline RL.

В плане кодинга правда все еще выходит гораздо сложнее, чем model-free подходы, за час как SAC не закодить. Но результаты хорошие. Жалко не сравниваются с DreamerV2.

EDIT:
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL
еще очень похожая статья с почти идентичными идеями

243 viewsedited 09:50

Does RL work yet?

225 views09:50

Does RL work yet?

Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments

Очень крутая визуальная статья, которая наглядно подтверждает некоторые common wisdom предположения. Например, что клиппинг в PPO реально не дает агенту сделать слишком большой шаг и разойтись - теперь это видно по графику во время оптимизации!

239 views09:43

Does RL work yet?

238 views09:44

Does RL work yet?

Lipschitz-constrained Unsupervised Skill Discovery

Интересная интерпретация Mutual Information лосса для skill discovery, которая в итоге приводит к простому лоссу, поощряя увеличивать расстояние между начальными и конечными состояниями в траектории. При этом лосс фактически mse, в отличие от всяких ELBO до этого, поэтому учится легче, а самое главное из-за регуляризации на константу Липшица скиллы выходят разнообразные и покрытие состояний больше.

Как вишенка на торте умеет в zero-shot следовать к любым goals.

253 viewsedited 17:09

Does RL work yet?

244 views17:09

Does RL work yet?

241 views17:09

Does RL work yet?

ICLR 2023 submissions sorted by scores.

Есть много интересных работ в топе, которые я пропустил при первом просмотре всех сабмитов. Всего сабмитов 4849. Статьи нашей лабы примерно на 1к, 2к и 3.5k (без точных цифр дабы не деанонить).

ICLR 2023 Scores (updated Nov. 4 at 10 pm ET)

280 viewsedited 11:40

Does RL work yet?

Forwarded from Жёлтый AI

Мы недавно писали, что мы опубликовались на основной конференции NeurIPS. Но это еще не всё.

Мы ещё решили сверху заспамить воркшопы нипса, поэтому встречайте:

Classifiers are Better Experts for Controllable Text Generation (@ellerenten, @nikitabalagansky, @kefirski, @amarkv) – TL4NLP Workshop

Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows (@CherryPieHSE @vkurenkov @Howuhh @adagrad @scitator) – Offline RL Workshop

Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size (@Howuhh @vkurenkov @adagrad @CherryPieHSE @scitator) – Offline RL Workshop

CORL: Research-oriented Deep Offline Reinforcement Learning Library (@adagrad @Howuhh @CherryPieHSE @vkurenkov @scitator) – Offline RL Workshop

P.S. На Offline RL Workshop было всего 45 аксептов. Если немного помахать руками, то можно вычислить, что мы получили 6% аксептов с этого воркшопа. Выводы делайте сами

👏3

320 views15:48

Does RL work yet?

Интересная и очень полезная лекция от самого Sutton'a! Даже не про RL и с простым решением важной проблемы в конце.

🤯2

325 viewsedited 18:27

Does RL work yet?

Fast Population-Based Reinforcement Learning on a Single Machine.

Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.

Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.

В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса Linear размерности [num_agents, input_dim, out_dim]). В Jax же все делается из коробки через jax.vmap, да и работает шустрее.

Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.

381 viewsedited 18:41

Does RL work yet?

383 views18:42