Does RL work yet?
430 subscribers
53 photos
9 videos
1 file
65 links
Download Telegram
ICLR 2023 submissions sorted by scores.

Есть много интересных работ в топе, которые я пропустил при первом просмотре всех сабмитов. Всего сабмитов 4849. Статьи нашей лабы примерно на 1к, 2к и 3.5k (без точных цифр дабы не деанонить).
Forwarded from Жёлтый AI
Мы недавно писали, что мы опубликовались на основной конференции NeurIPS. Но это еще не всё.

Мы ещё решили сверху заспамить воркшопы нипса, поэтому встречайте:

Classifiers are Better Experts for Controllable Text Generation (@ellerenten, @nikitabalagansky, @kefirski, @amarkv) – TL4NLP Workshop

Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows (@CherryPieHSE @vkurenkov @Howuhh @adagrad @scitator) – Offline RL Workshop

Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size (@Howuhh @vkurenkov @adagrad @CherryPieHSE @scitator) – Offline RL Workshop

CORL: Research-oriented Deep Offline Reinforcement Learning Library (@adagrad @Howuhh @CherryPieHSE @vkurenkov @scitator) – Offline RL Workshop

P.S. На Offline RL Workshop было всего 45 аксептов. Если немного помахать руками, то можно вычислить, что мы получили 6% аксептов с этого воркшопа. Выводы делайте сами
👏3
Интересная и очень полезная лекция от самого Sutton'a! Даже не про RL и с простым решением важной проблемы в конце.
🤯2
Fast Population-Based Reinforcement Learning on a Single Machine.

Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.

Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.

В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса Linear размерности [num_agents, input_dim, out_dim]). В Jax же все делается из коробки через jax.vmap, да и работает шустрее.

Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.
Forwarded from causality links
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️⚡️⚡️_NEW PAPERS ALERT_⚡️⚡️⚡️

Мы сейчас много занимаемся Meta-RL, и в частности In-Context Reinforcement Learning (ICRL) — это такая подобласть Offline Meta-RL, где обычный next-action prediction в совокупности с правильными данными позволяет адаптироваться к новым задачам без дообучения. Как-нибудь расскажу подробнее.

Все наши последние работы так или иначе направлены в эту сторону, и мы наконец довели их до полноценных full papers. Вот они, слева-направо:

In-Context Reinforcement Learning for Variable Action Spaces [X, arXiv] — о том как заставить Algorithm Distillation работать с меняющимися пространствами действий. Рандомные проекции угар.

Emergence of In-Context Reinforcement Learning from Noise Distillation [X, arXiv] — о том что нам на самом деле не нужна разметка оптимальными действиями или траектории RL алгоритмов и можно обойтись простым “добавьте немного (а потом много) шума к вашему демонстратору”. Тут в целом можно заметить связь с диффузиями по касательной, туда не копали, но кажется может быть интересно.

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX [arXiv, src] — ну тут понятно, про триллион шагов рассказывал сверху. Сейчас довезли полноценных бенчмарков, порефакторили все это дело и обильно рассказали про устройство библиотеки в самой статье. Если вы все еще не умеете в Jax, то уже опаздываете (no jokes).

As usual, все лавры и похвала прекрасным работягам запускающим по тыще экспериментов в неделю — @suessmann @umagumm_a @howuhh. Для некоторых из них это первая полноценная статья, оч круто справились !


@causality_links
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
В общем, постов долгое время не было и не факт что будут дальше. Однако, теперь хотя бы есть оправдание почему, мы в группе ударно работали! Надеюсь это даст плоды на грядущем ICML 2024. У нас еще много идей и они тут тоже непременно появятся. Статей за это время интересных тоже вышла целая куча, но что было то было, может возобновлю постинг новых. Все равно мы побьем все старые 😎️️️️️️
🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
Осенью ездил с докладом на конференцию в вышке, Fall Into ML 2023. Рассказывал о своей первой статье прошедшей на ICML 2023. Кстати за нее же мне выдали Yandex ML Prize (бывшая премия Сегаловича).

Много с кем познакомился, а теперь вышло даже небольшая компиляция из интервью с участниками. В конце даже есть я!

А сам доклад можно посмотреть тут.
🔥2
Forwarded from IPClub-Sk
Компиляция интервью с топовыми учеными и студентами с конференции Fall Into ML, которая прошла в конце октября в ВШЭ.

В видео поговорили про саму конференцию, науку, ML и путь в науке. В видео конкретные примеры и советы для начинающих ! 🔥

Спасибо всем, кто принял участие и помог записи ❤️

https://www.youtube.com/watch?v=3Y4T5ZLBxEQ&t=3s
👍2🔥1
Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все новые сабмиты и прогоняет через LLM, на выходе tldr, очень удобно листать с утра за чаем!

К сожалению, чувак делает это видимо руками т.к. публиукет он это все не каждый день...

https://yobibyte.github.io/arxiv_compressed.html
👍8
Forwarded from Жёлтый AI
Мы давно не рассказывали о наших успехах в RL Research, а рассказать есть что 🏂

25 марта в 19:00 в нашем офисе на Белорусской расскажем про методы, которые сделают In-Context RL реальнее, а именно:

- Как сделать агентов, которые способны адаптироваться под новые действия в незнакомых средах
- Как легко собирать данные для In-Context RL
- А так же о том, как все-таки сделать 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?

Регистрируйтесь, и будем всех ждать!
Does RL work yet?
Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все…
Продолжая тему чтения статей, внезапно очень хорошим оказался https://www.scholar-inbox.com/, недавно появившийся сервис рекомендаций статей. Таких было много, но почему-то этот мне прям понравился. Чуть-чуть времени потратить на первичную калибровку, а дальше он начинает что-то советовать уже сам. Можно глянуть все последние сабмиты на архив и отсортировать по релевантности. Из приятного - присылает на почту дайджесты сам и пока все дайджесты были либо интересные либо содержали в себе статьи, которые я и так потом в твиттере лайкал/открывал с высокой вероятностью. Из совсем приятного - можно на все популярные конфы зайти и по годам посмотреть релевантные для тебя сабмиты, что вообще кайф.
🔥8👍1
Скоро у нас очередной тур по городам, такой же был в прошлом году! Расскажем о наших исследованиях, так что приходите
Если вы интересуетесь ML, DL и RL, хотите развивать искусственный интеллект и работать на острие науки, писать статьи в рецензируемые журналы и выступать на топовых конференциях — не пропустите ивент от Tinkoff Lab Research.

Напомним, что Tinkoff Lab — это исследовательская лаборатория для студентов. Лаборанты работают над задачами в области искусственного интеллекта. Это классная возможность получить научный и продуктовый опыт, поскольку индустриальные проекты становятся частью экосистемы Тинькофф, а научные — основой для публикаций и докладов на конференциях. Лаборантов оформляем на работу в МФТИ, а лучших приглашаем в штат Тинькофф.

На встрече Research 4 Kids выпускники Лаборатории расскажут о своих проектах и о том, как присоединиться к ним в этих исследованиях. Мероприятия пройдут офлайн в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге. Все подробности и регистрация по ссылке: https://l.tinkoff.ru/tlab_research4kids2024
🔥4🎉1
Советую посмотреть, если хотите узнать чем я был занят пол года и причем тут JAX 😳!
Forwarded from Жёлтый AI
Долго ждать записей RL-ивента не пришлось! Если вы не смогли прийти, то теперь можно посмотреть рассказ про:
– Новый метод сбора данных для In-Context RL
– Простой способ делать In-Context RL с генерализацией на новые действия
– Как сделать 1 триллион действий за 2 дня с XLand-MiniGrid

В записях таятся секретные знания о RL будущего, так что они обязательны к просмотру!
🔥3