Does RL work yet?
430 subscribers
53 photos
9 videos
1 file
65 links
Download Telegram
Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations.

Первый, как они заявляют, подход, который достигает значительно больших чем эксперт наград в Imitation Learning сеттинге, имея только экспертные демонстрации без наград.

Идея простая - учат классификатор ранжировать между собой траектории, используют это как награду. Интересно то, что классификатор генерализуется и может ранжировать траектории лучше или хуже, чем были в обучающей выборке. За счет этого и перфоманс лучше, чем у эксперта.
Rapid Task-Solving in Novel Environments.

Люблю подходы основанные на non-parametric памяти, всегда получается что-то интересно (но не факт, что простое).
In-context Reinforcement Learning with Algorithm Distillation.

В общем как и предсказывалось, это в самом деле оказался дипмайнд. Простая идея, далеко идущие последствия. Думаю это станет мейнстримом в недалеком будущем оффлайн RL.

Самый большой вопрос здесь, а как самому на такие простые (но важные!!!) идеи натыкаться? В конце концов от таких всегда больше импакта, т.к. они лучше генерализуются, в отличие от сложных штук.
👍2
🔥1
Policy Evaluation Networks.

Вместо критика, который зависит от состояния V(s) и оценивает одну политику, учат критика, который зависит от политики V(policy_weights), но оценивает будущую награду только из начальных состояний.

Собирают датасет [агент, его средняя суммарная награда], учат предсказывать награду. После обучения можно оптимизировать веса актора полностью оффлайн. Пихать полностью веса дорого, поэтому для описания политики используют эмбеддинг состоящий из действий, которые она предпринимает в каких-то состояниях.

Выглядит интересно, на простых задачах генерализуется из датасета рандомных политик. Но в целом пока не придумал как это можно использовать.
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective

На мой взгляд очень интересная и полезная работа. С помощью магии математики выводят общий лосс (!!!) для политики, динамики, энкодера стейтов и все это в латентном пространстве, без необходимости реконстракшена состояний (это особенно важно в картинках, на это уходит слишком много ресурсов обычно). Поэтому работает шустро, быстрее чем REDQ или MBPO. Отдельно выводят лосс для Offline RL.

В плане кодинга правда все еще выходит гораздо сложнее, чем model-free подходы, за час как SAC не закодить. Но результаты хорошие. Жалко не сравниваются с DreamerV2.

EDIT:
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL
еще очень похожая статья с почти идентичными идеями
Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments

Очень крутая визуальная статья, которая наглядно подтверждает некоторые common wisdom предположения. Например, что клиппинг в PPO реально не дает агенту сделать слишком большой шаг и разойтись - теперь это видно по графику во время оптимизации!
Lipschitz-constrained Unsupervised Skill Discovery

Интересная интерпретация Mutual Information лосса для skill discovery, которая в итоге приводит к простому лоссу, поощряя увеличивать расстояние между начальными и конечными состояниями в траектории. При этом лосс фактически mse, в отличие от всяких ELBO до этого, поэтому учится легче, а самое главное из-за регуляризации на константу Липшица скиллы выходят разнообразные и покрытие состояний больше.

Как вишенка на торте умеет в zero-shot следовать к любым goals.
ICLR 2023 submissions sorted by scores.

Есть много интересных работ в топе, которые я пропустил при первом просмотре всех сабмитов. Всего сабмитов 4849. Статьи нашей лабы примерно на 1к, 2к и 3.5k (без точных цифр дабы не деанонить).
Forwarded from Жёлтый AI
Мы недавно писали, что мы опубликовались на основной конференции NeurIPS. Но это еще не всё.

Мы ещё решили сверху заспамить воркшопы нипса, поэтому встречайте:

Classifiers are Better Experts for Controllable Text Generation (@ellerenten, @nikitabalagansky, @kefirski, @amarkv) – TL4NLP Workshop

Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows (@CherryPieHSE @vkurenkov @Howuhh @adagrad @scitator) – Offline RL Workshop

Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size (@Howuhh @vkurenkov @adagrad @CherryPieHSE @scitator) – Offline RL Workshop

CORL: Research-oriented Deep Offline Reinforcement Learning Library (@adagrad @Howuhh @CherryPieHSE @vkurenkov @scitator) – Offline RL Workshop

P.S. На Offline RL Workshop было всего 45 аксептов. Если немного помахать руками, то можно вычислить, что мы получили 6% аксептов с этого воркшопа. Выводы делайте сами
👏3
Интересная и очень полезная лекция от самого Sutton'a! Даже не про RL и с простым решением важной проблемы в конце.
🤯2
Fast Population-Based Reinforcement Learning on a Single Machine.

Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.

Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.

В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса Linear размерности [num_agents, input_dim, out_dim]). В Jax же все делается из коробки через jax.vmap, да и работает шустрее.

Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.