Does RL work yet? – Telegram

Does RL work yet?

430 subscribers

53 photos

9 videos

1 file

65 links

rl research by @howuhh

howuhh.github.io | dunnolab.ai

Download Telegram

About

Blog

Apps

Platform

Does RL work yet?

430 subscribers

Does RL work yet?

Policy Evaluation Networks.

Вместо критика, который зависит от состояния V(s) и оценивает одну политику, учат критика, который зависит от политики V(policy_weights), но оценивает будущую награду только из начальных состояний.

Собирают датасет [агент, его средняя суммарная награда], учат предсказывать награду. После обучения можно оптимизировать веса актора полностью оффлайн. Пихать полностью веса дорого, поэтому для описания политики используют эмбеддинг состоящий из действий, которые она предпринимает в каких-то состояниях.

Выглядит интересно, на простых задачах генерализуется из датасета рандомных политик. Но в целом пока не придумал как это можно использовать.

224 viewsedited 15:26

Does RL work yet?

219 views15:26

Does RL work yet?

Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective

На мой взгляд очень интересная и полезная работа. С помощью магии математики выводят общий лосс (!!!) для политики, динамики, энкодера стейтов и все это в латентном пространстве, без необходимости реконстракшена состояний (это особенно важно в картинках, на это уходит слишком много ресурсов обычно). Поэтому работает шустро, быстрее чем REDQ или MBPO. Отдельно выводят лосс для Offline RL.

В плане кодинга правда все еще выходит гораздо сложнее, чем model-free подходы, за час как SAC не закодить. Но результаты хорошие. Жалко не сравниваются с DreamerV2.

EDIT:
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL
еще очень похожая статья с почти идентичными идеями

243 viewsedited 09:50

Does RL work yet?

225 views09:50

Does RL work yet?

Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments

Очень крутая визуальная статья, которая наглядно подтверждает некоторые common wisdom предположения. Например, что клиппинг в PPO реально не дает агенту сделать слишком большой шаг и разойтись - теперь это видно по графику во время оптимизации!

239 views09:43

Does RL work yet?

238 views09:44

Does RL work yet?

Lipschitz-constrained Unsupervised Skill Discovery

Интересная интерпретация Mutual Information лосса для skill discovery, которая в итоге приводит к простому лоссу, поощряя увеличивать расстояние между начальными и конечными состояниями в траектории. При этом лосс фактически mse, в отличие от всяких ELBO до этого, поэтому учится легче, а самое главное из-за регуляризации на константу Липшица скиллы выходят разнообразные и покрытие состояний больше.

Как вишенка на торте умеет в zero-shot следовать к любым goals.

253 viewsedited 17:09

Does RL work yet?

244 views17:09

Does RL work yet?

241 views17:09

Does RL work yet?

ICLR 2023 submissions sorted by scores.

Есть много интересных работ в топе, которые я пропустил при первом просмотре всех сабмитов. Всего сабмитов 4849. Статьи нашей лабы примерно на 1к, 2к и 3.5k (без точных цифр дабы не деанонить).

ICLR 2023 Scores (updated Nov. 4 at 10 pm ET)

280 viewsedited 11:40

Does RL work yet?

Forwarded from Жёлтый AI

Мы недавно писали, что мы опубликовались на основной конференции NeurIPS. Но это еще не всё.

Мы ещё решили сверху заспамить воркшопы нипса, поэтому встречайте:

Classifiers are Better Experts for Controllable Text Generation (@ellerenten, @nikitabalagansky, @kefirski, @amarkv) – TL4NLP Workshop

Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows (@CherryPieHSE @vkurenkov @Howuhh @adagrad @scitator) – Offline RL Workshop

Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size (@Howuhh @vkurenkov @adagrad @CherryPieHSE @scitator) – Offline RL Workshop

CORL: Research-oriented Deep Offline Reinforcement Learning Library (@adagrad @Howuhh @CherryPieHSE @vkurenkov @scitator) – Offline RL Workshop

P.S. На Offline RL Workshop было всего 45 аксептов. Если немного помахать руками, то можно вычислить, что мы получили 6% аксептов с этого воркшопа. Выводы делайте сами

👏3

320 views15:48

Does RL work yet?

Интересная и очень полезная лекция от самого Sutton'a! Даже не про RL и с простым решением важной проблемы в конце.

🤯2

325 viewsedited 18:27

Does RL work yet?

Fast Population-Based Reinforcement Learning on a Single Machine.

Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.

Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.

В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса Linear размерности [num_agents, input_dim, out_dim]). В Jax же все делается из коробки через jax.vmap, да и работает шустрее.

Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.

381 viewsedited 18:41

Does RL work yet?

383 views18:42

Does RL work yet?

Forwarded from causality links

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

⚡️

⚡️

_NEW PAPERS ALERT_

⚡️

⚡️

⚡️

Мы сейчас много занимаемся Meta-RL, и в частности In-Context Reinforcement Learning (ICRL) — это такая подобласть Offline Meta-RL, где обычный next-action prediction в совокупности с правильными данными позволяет адаптироваться к новым задачам без дообучения. Как-нибудь расскажу подробнее.

Все наши последние работы так или иначе направлены в эту сторону, и мы наконец довели их до полноценных full papers. Вот они, слева-направо:

In-Context Reinforcement Learning for Variable Action Spaces [X, arXiv] — о том как заставить Algorithm Distillation работать с меняющимися пространствами действий. Рандомные проекции угар.

Emergence of In-Context Reinforcement Learning from Noise Distillation [X, arXiv] — о том что нам на самом деле не нужна разметка оптимальными действиями или траектории RL алгоритмов и можно обойтись простым “добавьте немного (а потом много) шума к вашему демонстратору”. Тут в целом можно заметить связь с диффузиями по касательной, туда не копали, но кажется может быть интересно.

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX [arXiv, src] — ну тут понятно, про триллион шагов рассказывал сверху. Сейчас довезли полноценных бенчмарков, порефакторили все это дело и обильно рассказали про устройство библиотеки в самой статье. Если вы все еще не умеете в Jax, то уже опаздываете (no jokes).

As usual, все лавры и похвала прекрасным работягам запускающим по тыще экспериментов в неделю — @suessmann @umagumm_a @howuhh. Для некоторых из них это первая полноценная статья, оч круто справились !

@causality_links

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

316 views11:25

Does RL work yet?

В общем, постов долгое время не было и не факт что будут дальше. Однако, теперь хотя бы есть оправдание почему, мы в группе ударно работали! Надеюсь это даст плоды на грядущем ICML 2024. У нас еще много идей и они тут тоже непременно появятся. Статей за это время интересных тоже вышла целая куча, но что было то было, может возобновлю постинг новых. Все равно мы побьем все старые 😎️️️️️️

🎉2

337 views11:43

Does RL work yet?

This media is not supported in your browser

VIEW IN TELEGRAM

341 views11:43

Does RL work yet?

Осенью ездил с докладом на конференцию в вышке, Fall Into ML 2023. Рассказывал о своей первой статье прошедшей на ICML 2023. Кстати за нее же мне выдали Yandex ML Prize (бывшая премия Сегаловича).

Много с кем познакомился, а теперь вышло даже небольшая компиляция из интервью с участниками. В конце даже есть я!

А сам доклад можно посмотреть тут.

Session 2. Theoretical ML 1

🔥2

429 viewsАлександр Никулин, 07:01

Does RL work yet?

Forwarded from IPClub-Sk

Компиляция интервью с топовыми учеными и студентами с конференции Fall Into ML, которая прошла в конце октября в ВШЭ.

В видео поговорили про саму конференцию, науку, ML и путь в науке. В видео конкретные примеры и советы для начинающих ! 🔥

Спасибо всем, кто принял участие и помог записи ❤️

https://www.youtube.com/watch?v=3Y4T5ZLBxEQ&t=3s

Fall into ML 2023 - Интервью, постерная сессия - Топ научная конференция по ML

Полные записи выступлений с конференции - @AI_center_HSE
Канал клуба в тг - @ipclubsk

00:00 интро
00:54 Алексей Наумов - Организатор FIML, head of HDI lab
07:11 Андрей Савченко - Научный директор Sber AI Lab, профессор ВШЭ Нижний Новгород
11:31 Алексей…

👍2🔥1

472 viewsАлександр Никулин, 07:01

Does RL work yet?

Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все новые сабмиты и прогоняет через LLM, на выходе tldr, очень удобно листать с утра за чаем!

К сожалению, чувак делает это видимо руками т.к. публиукет он это все не каждый день...

https://yobibyte.github.io/arxiv_compressed.html

👍8

548 viewsАлександр Никулин, edited 12:33

Does RL work yet?

Forwarded from Жёлтый AI

Мы давно не рассказывали о наших успехах в RL Research, а рассказать есть что 🏂

25 марта в 19:00 в нашем офисе на Белорусской расскажем про методы, которые сделают In-Context RL реальнее, а именно:

- Как сделать агентов, которые способны адаптироваться под новые действия в незнакомых средах
- Как легко собирать данные для In-Context RL
- А так же о том, как все-таки сделать 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?

Регистрируйтесь, и будем всех ждать!

430 viewsАлександр Никулин, 08:31