causality links
606 subscribers
45 photos
5 videos
109 links
people say (hope) we're invariant

personal channel of @vkurenkov
Download Telegram
Dutch Rudder as an Acyclic Causal Model
Reinforcement Learning from Passive Data via Latent Intentions
https://arxiv.org/abs/2304.04782
🔥5🙏1
Survival Instinct in Offline Reinforcement Learning
https://arxiv.org/abs/2306.03286
1🔥1
causality links
👋 we finally released our offline RL library with SOTA algorithms, so if you're into this stuff, check it out - single-file implementations - benchmarked on D4RL datasets - wandb reports with full metric logs (so that you don't need to rely on final performance…
New major CORL update!

🍏 Added offline benchmarks for 30 datasets covering Gym-MuJoCo, Maze2D, AntMaze, and Adroit

🍎 Implemented and benchmarked 5 offline-to-online algorithms on 10 datasets

Key takeaways:

🍒 IQL is strongest on average, and works pretty good in offline-to-online setup

🍒 AWAC is often missed in the literature, but performs strong in the offline setup

🍒 CQL is a nightmare but if tuned and tweaked (for a couple of months) works well


https://github.com/corl-team/CORL
4
Supervised Pretraining Can Learn In-Context Reinforcement Learning
https://arxiv.org/abs/2306.14892
2👍2
Forwarded from Жёлтый AI
ICML День #1: Спонсоры, спонсоры, спонсоры

Привет, это @vkurenkov. Так вышло, что я второй год подряд катаюсь на ICML рассказывать про наши новые статьи. А в этот раз я, кажется, еще созрел рассказать как проходит сама конференция. В течение недели будет много постов и фоточек, где буду подсвечивать прикольные вещи. Stay tuned.

Первый день — это всегда про спонсоров конференции: Google, Citadel, Amazon, DeepMind, Microsoft и весь другой BigTech рассказывают про то какие крутые вещи они у себя делают и почему нужно идти работать именно к ним (прим. редакции – вы-то знаете, что идти нужно к нам). Cамый движ потом происходит в Expo Hall, где каждый может подлететь к ним пообщаться. В довесок вам еще отгрузят пачку стикеров или футболку.

Из интересного, что увидел в первый день (а интересное для меня RL, sorry):

1. Sony показывали демку того как они с помощью RL решили Grand Turismo. Из любопытного — у них есть отдельная группа, которая нарешивает разные игры и может утаскивать к себе в команду инженеров, которые делали эти игры — well, it’s Sony. Из приятного, оказалось, что создатель d3rlpy работает в этой группе и любит наш CORL. Молодец, уважаю. 🤙

2. Microsoft в очередной раз (2 или 3 год подряд?) рассказывали про свою библиотеку для бандитов Vowpal Wabbit: этот раз они умудрились сделать интеграцию с LLM, для оптимизации переменных в промптах, что выглядит любопытно и позволяет нативным образом накрутить RL поверх LLM для переменных частей, добиваясь персонализации через промпты 🤔
🤯31
Forwarded from Жёлтый AI
ICML День #5: Рассказали про нашу работу

Сегодня мы выступали с постером про SAC-RND. Организаторы немного провафлили рассылку с локальной печатью плакатов и большинство людей тащили тубусы со своими огромными постерами на Гавайи сами (мы — не исключение), либо отправляли FedEx’ом. Ворчания по этому поводу от соседей по постерной сессии было много, да.

В целом всё прошло очень прикольно, вместо запланированных полутора часов я простоял почти два с половиной обясняя какие-то детали работы и отвечая на вопросы, в общей сложности активно вовлеклись человек 20-30 – это хорошие числа.

Для тех кто еще не знаком с нашей работой, вот три вещи которые надо для себя вынести:

🤙️️️️ Random Network Distillation (RND) может быть успешно использован не только для Online RL, но и для Offline RL

😎 RND может заменить ансамбль критиков: это в некоторых случаях ускоряет тренировочный процесс до 20 раз. При этом награда либо остается на уровне, либо даже становится лучше☝️

👉 Оптимизация RND может быть нестабильной, поэтому следует внимательно подобрать механизм слияния состояний и действий в RND. Мы описали разные варианты в нашей работе, так что check it out.

P.S. Если вы вдруг собираетесь когда-то поехать с постером, то всегда готовьтесь к тому, что подойдут как люди, которые вообще ничего не знают про вашу область, так и люди, которые уже прочитали вашу работу и у них есть миллион и один детальный вопрос. К нам подошли авторы работы, чьи результаты мы опровергли, чтобы уточнить, как у нас это получилось (было неловко, учитывая, что там надо было подкрутить глубину сети).
2🔥1
Forwarded from Жёлтый AI
Тинькофф X NeurIPS 2023

На нашем ивенте в июле, Saint Reinforcenburg, мы рассказывали про новые статьи, которые мы отправляем на какую-то конференцию. Так вот, все три наши статьи были приняты на NeurIPS 2023.

Если вы занимаетесь Reinforcement Learning, то у нас по этому случаю несколько подгонов: новый Offline/Offline-to-Online метод, обновленная документация для CORL’a, и записи наших выступлений.

🛠️ Revisiting the Minimalist Approach to Offline Reinforcement Learning [arXiv, видео, код]

🤖 CORL: Research-oriented Deep Offline Reinforcement Learning Library [arXiv, видео, код]

🧙 Katakomba: Tools and Benchmarks for Data-Driven NetHack [arXiv, видео, код]
🔥31👍1