скатался на нипс, душевно поболтал с Даней, сейчас в казани кальян курю
https://www.youtube.com/watch?v=7A51Ol7wo7o
https://www.youtube.com/watch?v=7A51Ol7wo7o
YouTube
Желтый Club Talks — Про NeurIPS 2023 и Новый Орлеан
Завершаем этот год приятными новостями. Запускаем новый формат — «Желтый Club Talks», в котором будем делиться разными впечатлениями, новостями, мыслями.
Ведущий этого выпуска — Даня Гаврилов, лид направления NLP в Tinkoff Research. В гостях — Влад Куренков…
Ведущий этого выпуска — Даня Гаврилов, лид направления NLP в Tinkoff Research. В гостях — Влад Куренков…
❤6
Forwarded from мужское одиночество
привет, ваша группа недавно мою статью процитировала) хочешь сходить куда-нибудь? может заколабимся)
❤6
This media is not supported in your browser
VIEW IN TELEGRAM
Мы сейчас много занимаемся Meta-RL, и в частности In-Context Reinforcement Learning (ICRL) — это такая подобласть Offline Meta-RL, где обычный next-action prediction в совокупности с правильными данными позволяет адаптироваться к новым задачам без дообучения. Как-нибудь расскажу подробнее.
Все наши последние работы так или иначе направлены в эту сторону, и мы наконец довели их до полноценных full papers. Вот они, слева-направо:
In-Context Reinforcement Learning for Variable Action Spaces [X, arXiv] — о том как заставить Algorithm Distillation работать с меняющимися пространствами действий. Рандомные проекции угар.
Emergence of In-Context Reinforcement Learning from Noise Distillation [X, arXiv] — о том что нам на самом деле не нужна разметка оптимальными действиями или траектории RL алгоритмов и можно обойтись простым “добавьте немного (а потом много) шума к вашему демонстратору”. Тут в целом можно заметить связь с диффузиями по касательной, туда не копали, но кажется может быть интересно.
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX [arXiv, src] — ну тут понятно, про триллион шагов рассказывал сверху. Сейчас довезли полноценных бенчмарков, порефакторили все это дело и обильно рассказали про устройство библиотеки в самой статье. Если вы все еще не умеете в Jax, то уже опаздываете (no jokes).
As usual, все лавры и похвала прекрасным работягам запускающим по тыще экспериментов в неделю — @suessmann @ummagumm_a @howuhh. Для некоторых из них это первая полноценная статья, оч круто справились !
@causality_links
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍2💯1
деды ругаются про causal inference, классика
https://x.com/yudapearl/status/1759344902029394125?s=46
https://x.com/yudapearl/status/1759344902029394125?s=46
X (formerly Twitter)
Judea Pearl (@yudapearl) on X
@ylecun @hannes_ullrich @eliasbareinboim I agree with not making assumptions about what one knows or doesn't know, but I couldn't find where the deficiency is in causal inference; please guide us.
😁2
💥 Запустили именную стипендию для студентов Университета Иннополис!
В августе вместе с @lua_b после очередных посиделок в District'e задались вопросом -- а почему нет стипендии для студентов УИ от выпускников? Решили, что нужно взять в свои руки и организовали — https://1519.innopolis.university
Long story short: зафиксировали список меценатов, собрали лендос, оформили нужные документы, провели отбор, поплакали с мотивационных писем и историй студентов о том как не хватило 1 процента до повышенных стипендий.
В итоге, мы получили около 100 заявок, из которых отобрали 17 человек, которые будут получать по 12к рублей в месяц на протяжении следующего полугода. Да, немного, но хороший старт!
Надеюсь, что у нас получилось заложить фундамент для будущих наборов, и в следующий раз расширить список меценатов не только выпускниками нашего курса.
В августе вместе с @lua_b после очередных посиделок в District'e задались вопросом -- а почему нет стипендии для студентов УИ от выпускников? Решили, что нужно взять в свои руки и организовали — https://1519.innopolis.university
Long story short: зафиксировали список меценатов, собрали лендос, оформили нужные документы, провели отбор, поплакали с мотивационных писем и историй студентов о том как не хватило 1 процента до повышенных стипендий.
В итоге, мы получили около 100 заявок, из которых отобрали 17 человек, которые будут получать по 12к рублей в месяц на протяжении следующего полугода. Да, немного, но хороший старт!
Надеюсь, что у нас получилось заложить фундамент для будущих наборов, и в следующий раз расширить список меценатов не только выпускниками нашего курса.
❤14
Forwarded from viacheslav sinii
a surprising emergent property of sac training - audio generation
🍓7🤯2
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
https://arxiv.org/abs/2403.03950
https://arxiv.org/abs/2403.03950
arXiv.org
Stop Regressing: Training Value Functions via Classification for...
Value functions are a central component of deep reinforcement learning (RL). These functions, parameterized by neural networks, are trained using a mean squared error regression objective to match...
👍4