Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations.
Первый, как они заявляют, подход, который достигает значительно больших чем эксперт наград в Imitation Learning сеттинге, имея только экспертные демонстрации без наград.
Идея простая - учат классификатор ранжировать между собой траектории, используют это как награду. Интересно то, что классификатор генерализуется и может ранжировать траектории лучше или хуже, чем были в обучающей выборке. За счет этого и перфоманс лучше, чем у эксперта.
Первый, как они заявляют, подход, который достигает значительно больших чем эксперт наград в Imitation Learning сеттинге, имея только экспертные демонстрации без наград.
Идея простая - учат классификатор ранжировать между собой траектории, используют это как награду. Интересно то, что классификатор генерализуется и может ранжировать траектории лучше или хуже, чем были в обучающей выборке. За счет этого и перфоманс лучше, чем у эксперта.
Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations
D-REX Project Page
Code and project page for D-REX algorithm from the paper “Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations” presented at CoRL 2019.
Rapid Task-Solving in Novel Environments.
Люблю подходы основанные на non-parametric памяти, всегда получается что-то интересно (но не факт, что простое).
Люблю подходы основанные на non-parametric памяти, всегда получается что-то интересно (но не факт, что простое).
In-context Reinforcement Learning with Algorithm Distillation.
В общем как и предсказывалось, это в самом деле оказался дипмайнд. Простая идея, далеко идущие последствия. Думаю это станет мейнстримом в недалеком будущем оффлайн RL.
Самый большой вопрос здесь, а как самому на такие простые (но важные!!!) идеи натыкаться? В конце концов от таких всегда больше импакта, т.к. они лучше генерализуются, в отличие от сложных штук.
В общем как и предсказывалось, это в самом деле оказался дипмайнд. Простая идея, далеко идущие последствия. Думаю это станет мейнстримом в недалеком будущем оффлайн RL.
Самый большой вопрос здесь, а как самому на такие простые (но важные!!!) идеи натыкаться? В конце концов от таких всегда больше импакта, т.к. они лучше генерализуются, в отличие от сложных штук.
👍2
Policy Evaluation Networks.
Вместо критика, который зависит от состояния V(s) и оценивает одну политику, учат критика, который зависит от политики V(policy_weights), но оценивает будущую награду только из начальных состояний.
Собирают датасет [агент, его средняя суммарная награда], учат предсказывать награду. После обучения можно оптимизировать веса актора полностью оффлайн. Пихать полностью веса дорого, поэтому для описания политики используют эмбеддинг состоящий из действий, которые она предпринимает в каких-то состояниях.
Выглядит интересно, на простых задачах генерализуется из датасета рандомных политик. Но в целом пока не придумал как это можно использовать.
Вместо критика, который зависит от состояния V(s) и оценивает одну политику, учат критика, который зависит от политики V(policy_weights), но оценивает будущую награду только из начальных состояний.
Собирают датасет [агент, его средняя суммарная награда], учат предсказывать награду. После обучения можно оптимизировать веса актора полностью оффлайн. Пихать полностью веса дорого, поэтому для описания политики используют эмбеддинг состоящий из действий, которые она предпринимает в каких-то состояниях.
Выглядит интересно, на простых задачах генерализуется из датасета рандомных политик. Но в целом пока не придумал как это можно использовать.
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective
На мой взгляд очень интересная и полезная работа. С помощью магии математики выводят общий лосс (!!!) для политики, динамики, энкодера стейтов и все это в латентном пространстве, без необходимости реконстракшена состояний (это особенно важно в картинках, на это уходит слишком много ресурсов обычно). Поэтому работает шустро, быстрее чем REDQ или MBPO. Отдельно выводят лосс для Offline RL.
В плане кодинга правда все еще выходит гораздо сложнее, чем model-free подходы, за час как SAC не закодить. Но результаты хорошие. Жалко не сравниваются с DreamerV2.
EDIT:
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL
еще очень похожая статья с почти идентичными идеями
На мой взгляд очень интересная и полезная работа. С помощью магии математики выводят общий лосс (!!!) для политики, динамики, энкодера стейтов и все это в латентном пространстве, без необходимости реконстракшена состояний (это особенно важно в картинках, на это уходит слишком много ресурсов обычно). Поэтому работает шустро, быстрее чем REDQ или MBPO. Отдельно выводят лосс для Offline RL.
В плане кодинга правда все еще выходит гораздо сложнее, чем model-free подходы, за час как SAC не закодить. Но результаты хорошие. Жалко не сравниваются с DreamerV2.
EDIT:
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL
еще очень похожая статья с почти идентичными идеями
Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments
Очень крутая визуальная статья, которая наглядно подтверждает некоторые common wisdom предположения. Например, что клиппинг в PPO реально не дает агенту сделать слишком большой шаг и разойтись - теперь это видно по графику во время оптимизации!
Очень крутая визуальная статья, которая наглядно подтверждает некоторые common wisdom предположения. Например, что клиппинг в PPO реально не дает агенту сделать слишком большой шаг и разойтись - теперь это видно по графику во время оптимизации!
Lipschitz-constrained Unsupervised Skill Discovery
Интересная интерпретация Mutual Information лосса для skill discovery, которая в итоге приводит к простому лоссу, поощряя увеличивать расстояние между начальными и конечными состояниями в траектории. При этом лосс фактически mse, в отличие от всяких ELBO до этого, поэтому учится легче, а самое главное из-за регуляризации на константу Липшица скиллы выходят разнообразные и покрытие состояний больше.
Как вишенка на торте умеет в zero-shot следовать к любым goals.
Интересная интерпретация Mutual Information лосса для skill discovery, которая в итоге приводит к простому лоссу, поощряя увеличивать расстояние между начальными и конечными состояниями в траектории. При этом лосс фактически mse, в отличие от всяких ELBO до этого, поэтому учится легче, а самое главное из-за регуляризации на константу Липшица скиллы выходят разнообразные и покрытие состояний больше.
Как вишенка на торте умеет в zero-shot следовать к любым goals.
ICLR 2023 submissions sorted by scores.
Есть много интересных работ в топе, которые я пропустил при первом просмотре всех сабмитов. Всего сабмитов 4849. Статьи нашей лабы примерно на 1к, 2к и 3.5k (без точных цифр дабы не деанонить).
Есть много интересных работ в топе, которые я пропустил при первом просмотре всех сабмитов. Всего сабмитов 4849. Статьи нашей лабы примерно на 1к, 2к и 3.5k (без точных цифр дабы не деанонить).
Google Docs
ICLR 2023 Scores (updated Nov. 4 at 10 pm ET)
Forwarded from Жёлтый AI
Мы недавно писали, что мы опубликовались на основной конференции NeurIPS. Но это еще не всё.
Мы ещё решили сверху заспамить воркшопы нипса, поэтому встречайте:
Classifiers are Better Experts for Controllable Text Generation (@ellerenten, @nikitabalagansky, @kefirski, @amarkv) – TL4NLP Workshop
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows (@CherryPieHSE @vkurenkov @Howuhh @adagrad @scitator) – Offline RL Workshop
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size (@Howuhh @vkurenkov @adagrad @CherryPieHSE @scitator) – Offline RL Workshop
CORL: Research-oriented Deep Offline Reinforcement Learning Library (@adagrad @Howuhh @CherryPieHSE @vkurenkov @scitator) – Offline RL Workshop
P.S. На Offline RL Workshop было всего 45 аксептов. Если немного помахать руками, то можно вычислить, что мы получили 6% аксептов с этого воркшопа. Выводы делайте сами
Мы ещё решили сверху заспамить воркшопы нипса, поэтому встречайте:
Classifiers are Better Experts for Controllable Text Generation (@ellerenten, @nikitabalagansky, @kefirski, @amarkv) – TL4NLP Workshop
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows (@CherryPieHSE @vkurenkov @Howuhh @adagrad @scitator) – Offline RL Workshop
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size (@Howuhh @vkurenkov @adagrad @CherryPieHSE @scitator) – Offline RL Workshop
CORL: Research-oriented Deep Offline Reinforcement Learning Library (@adagrad @Howuhh @CherryPieHSE @vkurenkov @scitator) – Offline RL Workshop
P.S. На Offline RL Workshop было всего 45 аксептов. Если немного помахать руками, то можно вычислить, что мы получили 6% аксептов с этого воркшопа. Выводы делайте сами
👏3
Интересная и очень полезная лекция от самого Sutton'a! Даже не про RL и с простым решением важной проблемы в конце.
🤯2
Fast Population-Based Reinforcement Learning on a Single Machine.
Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.
Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.
В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса
Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.
Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.
Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.
В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса
Linear размерности [num_agents, input_dim, out_dim]). В Jax же все делается из коробки через jax.vmap, да и работает шустрее.Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.