Does RL work yet?
430 subscribers
53 photos
9 videos
1 file
65 links
Download Telegram
Интересная и очень полезная лекция от самого Sutton'a! Даже не про RL и с простым решением важной проблемы в конце.
🤯2
Fast Population-Based Reinforcement Learning on a Single Machine.

Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.

Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.

В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса Linear размерности [num_agents, input_dim, out_dim]). В Jax же все делается из коробки через jax.vmap, да и работает шустрее.

Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.
Forwarded from causality links
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️⚡️⚡️_NEW PAPERS ALERT_⚡️⚡️⚡️

Мы сейчас много занимаемся Meta-RL, и в частности In-Context Reinforcement Learning (ICRL) — это такая подобласть Offline Meta-RL, где обычный next-action prediction в совокупности с правильными данными позволяет адаптироваться к новым задачам без дообучения. Как-нибудь расскажу подробнее.

Все наши последние работы так или иначе направлены в эту сторону, и мы наконец довели их до полноценных full papers. Вот они, слева-направо:

In-Context Reinforcement Learning for Variable Action Spaces [X, arXiv] — о том как заставить Algorithm Distillation работать с меняющимися пространствами действий. Рандомные проекции угар.

Emergence of In-Context Reinforcement Learning from Noise Distillation [X, arXiv] — о том что нам на самом деле не нужна разметка оптимальными действиями или траектории RL алгоритмов и можно обойтись простым “добавьте немного (а потом много) шума к вашему демонстратору”. Тут в целом можно заметить связь с диффузиями по касательной, туда не копали, но кажется может быть интересно.

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX [arXiv, src] — ну тут понятно, про триллион шагов рассказывал сверху. Сейчас довезли полноценных бенчмарков, порефакторили все это дело и обильно рассказали про устройство библиотеки в самой статье. Если вы все еще не умеете в Jax, то уже опаздываете (no jokes).

As usual, все лавры и похвала прекрасным работягам запускающим по тыще экспериментов в неделю — @suessmann @umagumm_a @howuhh. Для некоторых из них это первая полноценная статья, оч круто справились !


@causality_links
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
В общем, постов долгое время не было и не факт что будут дальше. Однако, теперь хотя бы есть оправдание почему, мы в группе ударно работали! Надеюсь это даст плоды на грядущем ICML 2024. У нас еще много идей и они тут тоже непременно появятся. Статей за это время интересных тоже вышла целая куча, но что было то было, может возобновлю постинг новых. Все равно мы побьем все старые 😎️️️️️️
🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
Осенью ездил с докладом на конференцию в вышке, Fall Into ML 2023. Рассказывал о своей первой статье прошедшей на ICML 2023. Кстати за нее же мне выдали Yandex ML Prize (бывшая премия Сегаловича).

Много с кем познакомился, а теперь вышло даже небольшая компиляция из интервью с участниками. В конце даже есть я!

А сам доклад можно посмотреть тут.
🔥2
Forwarded from IPClub-Sk
Компиляция интервью с топовыми учеными и студентами с конференции Fall Into ML, которая прошла в конце октября в ВШЭ.

В видео поговорили про саму конференцию, науку, ML и путь в науке. В видео конкретные примеры и советы для начинающих ! 🔥

Спасибо всем, кто принял участие и помог записи ❤️

https://www.youtube.com/watch?v=3Y4T5ZLBxEQ&t=3s
👍2🔥1
Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все новые сабмиты и прогоняет через LLM, на выходе tldr, очень удобно листать с утра за чаем!

К сожалению, чувак делает это видимо руками т.к. публиукет он это все не каждый день...

https://yobibyte.github.io/arxiv_compressed.html
👍8
Forwarded from Жёлтый AI
Мы давно не рассказывали о наших успехах в RL Research, а рассказать есть что 🏂

25 марта в 19:00 в нашем офисе на Белорусской расскажем про методы, которые сделают In-Context RL реальнее, а именно:

- Как сделать агентов, которые способны адаптироваться под новые действия в незнакомых средах
- Как легко собирать данные для In-Context RL
- А так же о том, как все-таки сделать 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?

Регистрируйтесь, и будем всех ждать!
Does RL work yet?
Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все…
Продолжая тему чтения статей, внезапно очень хорошим оказался https://www.scholar-inbox.com/, недавно появившийся сервис рекомендаций статей. Таких было много, но почему-то этот мне прям понравился. Чуть-чуть времени потратить на первичную калибровку, а дальше он начинает что-то советовать уже сам. Можно глянуть все последние сабмиты на архив и отсортировать по релевантности. Из приятного - присылает на почту дайджесты сам и пока все дайджесты были либо интересные либо содержали в себе статьи, которые я и так потом в твиттере лайкал/открывал с высокой вероятностью. Из совсем приятного - можно на все популярные конфы зайти и по годам посмотреть релевантные для тебя сабмиты, что вообще кайф.
🔥8👍1
Скоро у нас очередной тур по городам, такой же был в прошлом году! Расскажем о наших исследованиях, так что приходите
Если вы интересуетесь ML, DL и RL, хотите развивать искусственный интеллект и работать на острие науки, писать статьи в рецензируемые журналы и выступать на топовых конференциях — не пропустите ивент от Tinkoff Lab Research.

Напомним, что Tinkoff Lab — это исследовательская лаборатория для студентов. Лаборанты работают над задачами в области искусственного интеллекта. Это классная возможность получить научный и продуктовый опыт, поскольку индустриальные проекты становятся частью экосистемы Тинькофф, а научные — основой для публикаций и докладов на конференциях. Лаборантов оформляем на работу в МФТИ, а лучших приглашаем в штат Тинькофф.

На встрече Research 4 Kids выпускники Лаборатории расскажут о своих проектах и о том, как присоединиться к ним в этих исследованиях. Мероприятия пройдут офлайн в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге. Все подробности и регистрация по ссылке: https://l.tinkoff.ru/tlab_research4kids2024
🔥4🎉1
Советую посмотреть, если хотите узнать чем я был занят пол года и причем тут JAX 😳!
Forwarded from Жёлтый AI
Долго ждать записей RL-ивента не пришлось! Если вы не смогли прийти, то теперь можно посмотреть рассказ про:
– Новый метод сбора данных для In-Context RL
– Простой способ делать In-Context RL с генерализацией на новые действия
– Как сделать 1 триллион действий за 2 дня с XLand-MiniGrid

В записях таятся секретные знания о RL будущего, так что они обязательны к просмотру!
🔥3
Forwarded from causality links
cooked 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉11🔥2
Недавно со мной вышло маленькое интервью по мотивам Yandex ML Prize, совместно с Forbes.

Рассказал немного о себе, своем пути к исследованиям, вдохновении и всем таком сентиментальном. Опыт, как и формат, для меня новый, поэтому вышло слегка топорно на мой взгляд, но кому-то может быть интересно вне зависимости от формы подачи! Советую посмотреть, к тому же, там есть интервью и других лауреатов, например моего коллеги и постоянного соавтора Влада Куренкова (@vkurenkov).

Под моим интервью также длинный список всяких интересностей, по ним тоже советую пройтись!

https://www.forbes.ru/special/yandex-ml-prize/?erid=4CQwVszH9pWwnwfPze3
🎉10🔥7