causality links
607 subscribers
45 photos
5 videos
109 links
people say (hope) we're invariant

personal channel of @vkurenkov
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️⚡️⚡️_NEW PAPERS ALERT_⚡️⚡️⚡️

Мы сейчас много занимаемся Meta-RL, и в частности In-Context Reinforcement Learning (ICRL) — это такая подобласть Offline Meta-RL, где обычный next-action prediction в совокупности с правильными данными позволяет адаптироваться к новым задачам без дообучения. Как-нибудь расскажу подробнее.

Все наши последние работы так или иначе направлены в эту сторону, и мы наконец довели их до полноценных full papers. Вот они, слева-направо:

In-Context Reinforcement Learning for Variable Action Spaces [X, arXiv] — о том как заставить Algorithm Distillation работать с меняющимися пространствами действий. Рандомные проекции угар.

Emergence of In-Context Reinforcement Learning from Noise Distillation [X, arXiv] — о том что нам на самом деле не нужна разметка оптимальными действиями или траектории RL алгоритмов и можно обойтись простым “добавьте немного (а потом много) шума к вашему демонстратору”. Тут в целом можно заметить связь с диффузиями по касательной, туда не копали, но кажется может быть интересно.

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX [arXiv, src] — ну тут понятно, про триллион шагов рассказывал сверху. Сейчас довезли полноценных бенчмарков, порефакторили все это дело и обильно рассказали про устройство библиотеки в самой статье. Если вы все еще не умеете в Jax, то уже опаздываете (no jokes).

As usual, все лавры и похвала прекрасным работягам запускающим по тыще экспериментов в неделю — @suessmann @ummagumm_a @howuhh. Для некоторых из них это первая полноценная статья, оч круто справились !


@causality_links
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍2💯1
causality links
😎😎😎
продолжаем следить за ситуацией 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4
💥 Запустили именную стипендию для студентов Университета Иннополис!

В августе вместе с @lua_b после очередных посиделок в District'e задались вопросом -- а почему нет стипендии для студентов УИ от выпускников? Решили, что нужно взять в свои руки и организовали — https://1519.innopolis.university

Long story short: зафиксировали список меценатов, собрали лендос, оформили нужные документы, провели отбор, поплакали с мотивационных писем и историй студентов о том как не хватило 1 процента до повышенных стипендий.

В итоге, мы получили около 100 заявок, из которых отобрали 17 человек, которые будут получать по 12к рублей в месяц на протяжении следующего полугода. Да, немного, но хороший старт!

Надеюсь, что у нас получилось заложить фундамент для будущих наборов, и в следующий раз расширить список меценатов не только выпускниками нашего курса.
14
Forwarded from viacheslav sinii
a surprising emergent property of sac training - audio generation
🍓7🤯2
Forwarded from Жёлтый AI
Мы давно не рассказывали о наших успехах в RL Research, а рассказать есть что 🏂

25 марта в 19:00 в нашем офисе на Белорусской расскажем про методы, которые сделают In-Context RL реальнее, а именно:

- Как сделать агентов, которые способны адаптироваться под новые действия в незнакомых средах
- Как легко собирать данные для In-Context RL
- А так же о том, как все-таки сделать 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?

Регистрируйтесь, и будем всех ждать!
👏32🔥1
something’s cooking
🍓4👍2🔥1
> готовишься у ребутталу, ставишь кучу экспериментов допом

> да с кайфом ребята, так уж и быть оставлю weak accept

😜😜😜
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6😢4🤬2
Forwarded from Жёлтый AI
Долго ждать записей RL-ивента не пришлось! Если вы не смогли прийти, то теперь можно посмотреть рассказ про:
– Новый метод сбора данных для In-Context RL
– Простой способ делать In-Context RL с генерализацией на новые действия
– Как сделать 1 триллион действий за 2 дня с XLand-MiniGrid

В записях таятся секретные знания о RL будущего, так что они обязательны к просмотру!
3🔥1