Does RL work yet? – Telegram

Does RL work yet?

430 subscribers

53 photos

9 videos

1 file

65 links

rl research by @howuhh

howuhh.github.io | dunnolab.ai

Download Telegram

About

Blog

Apps

Platform

Does RL work yet?

430 subscribers

Does RL work yet?

Интересная и очень полезная лекция от самого Sutton'a! Даже не про RL и с простым решением важной проблемы в конце.

🤯2

325 viewsedited 18:27

Does RL work yet?

Fast Population-Based Reinforcement Learning on a Single Machine.

Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.

Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.

В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса Linear размерности [num_agents, input_dim, out_dim]). В Jax же все делается из коробки через jax.vmap, да и работает шустрее.

Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.

381 viewsedited 18:41

Does RL work yet?

383 views18:42

Does RL work yet?

Forwarded from causality links

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

⚡️

⚡️

_NEW PAPERS ALERT_

⚡️

⚡️

⚡️

Мы сейчас много занимаемся Meta-RL, и в частности In-Context Reinforcement Learning (ICRL) — это такая подобласть Offline Meta-RL, где обычный next-action prediction в совокупности с правильными данными позволяет адаптироваться к новым задачам без дообучения. Как-нибудь расскажу подробнее.

Все наши последние работы так или иначе направлены в эту сторону, и мы наконец довели их до полноценных full papers. Вот они, слева-направо:

In-Context Reinforcement Learning for Variable Action Spaces [X, arXiv] — о том как заставить Algorithm Distillation работать с меняющимися пространствами действий. Рандомные проекции угар.

Emergence of In-Context Reinforcement Learning from Noise Distillation [X, arXiv] — о том что нам на самом деле не нужна разметка оптимальными действиями или траектории RL алгоритмов и можно обойтись простым “добавьте немного (а потом много) шума к вашему демонстратору”. Тут в целом можно заметить связь с диффузиями по касательной, туда не копали, но кажется может быть интересно.

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX [arXiv, src] — ну тут понятно, про триллион шагов рассказывал сверху. Сейчас довезли полноценных бенчмарков, порефакторили все это дело и обильно рассказали про устройство библиотеки в самой статье. Если вы все еще не умеете в Jax, то уже опаздываете (no jokes).

As usual, все лавры и похвала прекрасным работягам запускающим по тыще экспериментов в неделю — @suessmann @umagumm_a @howuhh. Для некоторых из них это первая полноценная статья, оч круто справились !

@causality_links

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

316 views11:25

Does RL work yet?

В общем, постов долгое время не было и не факт что будут дальше. Однако, теперь хотя бы есть оправдание почему, мы в группе ударно работали! Надеюсь это даст плоды на грядущем ICML 2024. У нас еще много идей и они тут тоже непременно появятся. Статей за это время интересных тоже вышла целая куча, но что было то было, может возобновлю постинг новых. Все равно мы побьем все старые 😎️️️️️️

🎉2

337 views11:43

Does RL work yet?

This media is not supported in your browser

VIEW IN TELEGRAM

341 views11:43

Does RL work yet?

Осенью ездил с докладом на конференцию в вышке, Fall Into ML 2023. Рассказывал о своей первой статье прошедшей на ICML 2023. Кстати за нее же мне выдали Yandex ML Prize (бывшая премия Сегаловича).

Много с кем познакомился, а теперь вышло даже небольшая компиляция из интервью с участниками. В конце даже есть я!

А сам доклад можно посмотреть тут.

Session 2. Theoretical ML 1

🔥2

429 viewsАлександр Никулин, 07:01

Does RL work yet?

Forwarded from IPClub-Sk

Компиляция интервью с топовыми учеными и студентами с конференции Fall Into ML, которая прошла в конце октября в ВШЭ.

В видео поговорили про саму конференцию, науку, ML и путь в науке. В видео конкретные примеры и советы для начинающих ! 🔥

Спасибо всем, кто принял участие и помог записи ❤️

https://www.youtube.com/watch?v=3Y4T5ZLBxEQ&t=3s

Fall into ML 2023 - Интервью, постерная сессия - Топ научная конференция по ML

Полные записи выступлений с конференции - @AI_center_HSE
Канал клуба в тг - @ipclubsk

00:00 интро
00:54 Алексей Наумов - Организатор FIML, head of HDI lab
07:11 Андрей Савченко - Научный директор Sber AI Lab, профессор ВШЭ Нижний Новгород
11:31 Алексей…

👍2🔥1

472 viewsАлександр Никулин, 07:01

Does RL work yet?

Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все новые сабмиты и прогоняет через LLM, на выходе tldr, очень удобно листать с утра за чаем!

К сожалению, чувак делает это видимо руками т.к. публиукет он это все не каждый день...

https://yobibyte.github.io/arxiv_compressed.html

👍8

548 viewsАлександр Никулин, edited 12:33

Does RL work yet?

Forwarded from Жёлтый AI

Мы давно не рассказывали о наших успехах в RL Research, а рассказать есть что 🏂

25 марта в 19:00 в нашем офисе на Белорусской расскажем про методы, которые сделают In-Context RL реальнее, а именно:

- Как сделать агентов, которые способны адаптироваться под новые действия в незнакомых средах
- Как легко собирать данные для In-Context RL
- А так же о том, как все-таки сделать 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?

Регистрируйтесь, и будем всех ждать!

430 viewsАлександр Никулин, 08:31

Does RL work yet?

Does RL work yet?

Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все…

Продолжая тему чтения статей, внезапно очень хорошим оказался https://www.scholar-inbox.com/, недавно появившийся сервис рекомендаций статей. Таких было много, но почему-то этот мне прям понравился. Чуть-чуть времени потратить на первичную калибровку, а дальше он начинает что-то советовать уже сам. Можно глянуть все последние сабмиты на архив и отсортировать по релевантности. Из приятного - присылает на почту дайджесты сам и пока все дайджесты были либо интересные либо содержали в себе статьи, которые я и так потом в твиттере лайкал/открывал с высокой вероятностью. Из совсем приятного - можно на все популярные конфы зайти и по годам посмотреть релевантные для тебя сабмиты, что вообще кайф.

🔥8👍1

724 viewsАлександр Никулин, 10:00

Does RL work yet?

Скоро у нас очередной тур по городам, такой же был в прошлом году! Расскажем о наших исследованиях, так что приходите

541 viewsАлександр Никулин, 10:11

Does RL work yet?

Forwarded from Т-Образование

Если вы интересуетесь ML, DL и RL, хотите развивать искусственный интеллект и работать на острие науки, писать статьи в рецензируемые журналы и выступать на топовых конференциях — не пропустите ивент от Tinkoff Lab Research.

Напомним, что Tinkoff Lab — это исследовательская лаборатория для студентов. Лаборанты работают над задачами в области искусственного интеллекта. Это классная возможность получить научный и продуктовый опыт, поскольку индустриальные проекты становятся частью экосистемы Тинькофф, а научные — основой для публикаций и докладов на конференциях. Лаборантов оформляем на работу в МФТИ, а лучших приглашаем в штат Тинькофф.

На встрече Research 4 Kids выпускники Лаборатории расскажут о своих проектах и о том, как присоединиться к ним в этих исследованиях. Мероприятия пройдут офлайн в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге. Все подробности и регистрация по ссылке: https://l.tinkoff.ru/tlab_research4kids2024

🔥4🎉1

659 viewsАлександр Никулин, 10:11

Does RL work yet?

Советую посмотреть, если хотите узнать чем я был занят пол года и причем тут JAX 😳!

596 viewsАлександр Никулин, 11:05

Does RL work yet?

Forwarded from Жёлтый AI

Долго ждать записей RL-ивента не пришлось! Если вы не смогли прийти, то теперь можно посмотреть рассказ про:
– Новый метод сбора данных для In-Context RL
– Простой способ делать In-Context RL с генерализацией на новые действия
– Как сделать 1 триллион действий за 2 дня с XLand-MiniGrid

В записях таятся секретные знания о RL будущего, так что они обязательны к просмотру!

🔥3

670 viewsАлександр Никулин, 11:05

Does RL work yet?

Forwarded from causality links

cooked 🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉11🔥2

577 viewsАлександр Никулин, 12:01

Does RL work yet?

Недавно со мной вышло маленькое интервью по мотивам Yandex ML Prize, совместно с Forbes.

Рассказал немного о себе, своем пути к исследованиям, вдохновении и всем таком сентиментальном. Опыт, как и формат, для меня новый, поэтому вышло слегка топорно на мой взгляд, но кому-то может быть интересно вне зависимости от формы подачи! Советую посмотреть, к тому же, там есть интервью и других лауреатов, например моего коллеги и постоянного соавтора Влада Куренкова (@vkurenkov).

Под моим интервью также длинный список всяких интересностей, по ним тоже советую пройтись!

https://www.forbes.ru/special/yandex-ml-prize/?erid=4CQwVszH9pWwnwfPze3

Лауреаты Yandex ML Prize | Forbes & Yandex

Зачем исследователи из разных стран делятся друг с другом своими разработками? Где мы, сами того не замечая, пользуемся разведочным поиском? Как машинное обучение меняет всю нашу жизнь, приближая будущее, рассказывают ML-специалисты, лауреаты Yandex ML Prize.

🎉10🔥7

798 viewsАлександр Никулин, edited 06:58