Интересная и очень полезная лекция от самого Sutton'a! Даже не про RL и с простым решением важной проблемы в конце.
🤯2
Fast Population-Based Reinforcement Learning on a Single Machine.
Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.
Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.
В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса
Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.
Интересная работа, в которой показывают, что PB RL может хорошо и быстро работать на одной машине и (что важно!) быть простым в имплементации.
Достаточно правильно векторизовать код, так чтобы он работал эффективно на одном GPU/TPU для популяции агентов. После этого код любого алгоритма почти не меняется и спидапы огромные.
В PyTorch для этого нужно чуть поработать руками и векторизовать простые слои, чтобы они считали за раз N разных агентов (например сделать веса
Linear размерности [num_agents, input_dim, out_dim]). В Jax же все делается из коробки через jax.vmap, да и работает шустрее.Где это использовать в рисерче хз, т.к. из-за этого будет сложно изолировать эффекты нововведений, но для ускорения сбора данных для уже проверенных алгоритмов самое то. А у себя в рисерче я подобным способом обучаю ансамбли.
Forwarded from causality links
This media is not supported in your browser
VIEW IN TELEGRAM
Мы сейчас много занимаемся Meta-RL, и в частности In-Context Reinforcement Learning (ICRL) — это такая подобласть Offline Meta-RL, где обычный next-action prediction в совокупности с правильными данными позволяет адаптироваться к новым задачам без дообучения. Как-нибудь расскажу подробнее.
Все наши последние работы так или иначе направлены в эту сторону, и мы наконец довели их до полноценных full papers. Вот они, слева-направо:
In-Context Reinforcement Learning for Variable Action Spaces [X, arXiv] — о том как заставить Algorithm Distillation работать с меняющимися пространствами действий. Рандомные проекции угар.
Emergence of In-Context Reinforcement Learning from Noise Distillation [X, arXiv] — о том что нам на самом деле не нужна разметка оптимальными действиями или траектории RL алгоритмов и можно обойтись простым “добавьте немного (а потом много) шума к вашему демонстратору”. Тут в целом можно заметить связь с диффузиями по касательной, туда не копали, но кажется может быть интересно.
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX [arXiv, src] — ну тут понятно, про триллион шагов рассказывал сверху. Сейчас довезли полноценных бенчмарков, порефакторили все это дело и обильно рассказали про устройство библиотеки в самой статье. Если вы все еще не умеете в Jax, то уже опаздываете (no jokes).
As usual, все лавры и похвала прекрасным работягам запускающим по тыще экспериментов в неделю — @suessmann @umagumm_a @howuhh. Для некоторых из них это первая полноценная статья, оч круто справились !
@causality_links
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
В общем, постов долгое время не было и не факт что будут дальше. Однако, теперь хотя бы есть оправдание почему, мы в группе ударно работали! Надеюсь это даст плоды на грядущем ICML 2024. У нас еще много идей и они тут тоже непременно появятся. Статей за это время интересных тоже вышла целая куча, но что было то было, может возобновлю постинг новых. Все равно мы побьем все старые 😎️️️️️️
🎉2
Осенью ездил с докладом на конференцию в вышке, Fall Into ML 2023. Рассказывал о своей первой статье прошедшей на ICML 2023. Кстати за нее же мне выдали Yandex ML Prize (бывшая премия Сегаловича).
Много с кем познакомился, а теперь вышло даже небольшая компиляция из интервью с участниками. В конце даже есть я!
А сам доклад можно посмотреть тут.
Много с кем познакомился, а теперь вышло даже небольшая компиляция из интервью с участниками. В конце даже есть я!
А сам доклад можно посмотреть тут.
YouTube
Session 2. Theoretical ML 1
🔥2
Forwarded from IPClub-Sk
Компиляция интервью с топовыми учеными и студентами с конференции Fall Into ML, которая прошла в конце октября в ВШЭ.
В видео поговорили про саму конференцию, науку, ML и путь в науке. В видео конкретные примеры и советы для начинающих ! 🔥
Спасибо всем, кто принял участие и помог записи ❤️
https://www.youtube.com/watch?v=3Y4T5ZLBxEQ&t=3s
В видео поговорили про саму конференцию, науку, ML и путь в науке. В видео конкретные примеры и советы для начинающих ! 🔥
Спасибо всем, кто принял участие и помог записи ❤️
https://www.youtube.com/watch?v=3Y4T5ZLBxEQ&t=3s
YouTube
Fall into ML 2023 - Интервью, постерная сессия - Топ научная конференция по ML
Полные записи выступлений с конференции - @AI_center_HSE
Канал клуба в тг - @ipclubsk
00:00 интро
00:54 Алексей Наумов - Организатор FIML, head of HDI lab
07:11 Андрей Савченко - Научный директор Sber AI Lab, профессор ВШЭ Нижний Новгород
11:31 Алексей…
Канал клуба в тг - @ipclubsk
00:00 интро
00:54 Алексей Наумов - Организатор FIML, head of HDI lab
07:11 Андрей Савченко - Научный директор Sber AI Lab, профессор ВШЭ Нижний Новгород
11:31 Алексей…
👍2🔥1
Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все новые сабмиты и прогоняет через LLM, на выходе tldr, очень удобно листать с утра за чаем!
К сожалению, чувак делает это видимо руками т.к. публиукет он это все не каждый день...
https://yobibyte.github.io/arxiv_compressed.html
К сожалению, чувак делает это видимо руками т.к. публиукет он это все не каждый день...
https://yobibyte.github.io/arxiv_compressed.html
👍8
Forwarded from Жёлтый AI
Мы давно не рассказывали о наших успехах в RL Research, а рассказать есть что 🏂
25 марта в 19:00 в нашем офисе на Белорусской расскажем про методы, которые сделают In-Context RL реальнее, а именно:
- Как сделать агентов, которые способны адаптироваться под новые действия в незнакомых средах
- Как легко собирать данные для In-Context RL
- А так же о том, как все-таки сделать 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?
Регистрируйтесь, и будем всех ждать!
25 марта в 19:00 в нашем офисе на Белорусской расскажем про методы, которые сделают In-Context RL реальнее, а именно:
- Как сделать агентов, которые способны адаптироваться под новые действия в незнакомых средах
- Как легко собирать данные для In-Context RL
- А так же о том, как все-таки сделать 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?
Регистрируйтесь, и будем всех ждать!
Does RL work yet?
Меня частенько спрашивают откуда я читаю все новые папиры в первый же день их выхода. Помимо очевидного ответа в виде твиттера, есть еще несколько неочевидных. В последнее время больше всего пользуюсь пет-проектом одного небезызвестного чувака. Он парсит все…
Продолжая тему чтения статей, внезапно очень хорошим оказался https://www.scholar-inbox.com/, недавно появившийся сервис рекомендаций статей. Таких было много, но почему-то этот мне прям понравился. Чуть-чуть времени потратить на первичную калибровку, а дальше он начинает что-то советовать уже сам. Можно глянуть все последние сабмиты на архив и отсортировать по релевантности. Из приятного - присылает на почту дайджесты сам и пока все дайджесты были либо интересные либо содержали в себе статьи, которые я и так потом в твиттере лайкал/открывал с высокой вероятностью. Из совсем приятного - можно на все популярные конфы зайти и по годам посмотреть релевантные для тебя сабмиты, что вообще кайф.
🔥8👍1
Скоро у нас очередной тур по городам, такой же был в прошлом году! Расскажем о наших исследованиях, так что приходите
Forwarded from Т-Образование
Если вы интересуетесь ML, DL и RL, хотите развивать искусственный интеллект и работать на острие науки, писать статьи в рецензируемые журналы и выступать на топовых конференциях — не пропустите ивент от Tinkoff Lab Research.
Напомним, что Tinkoff Lab — это исследовательская лаборатория для студентов. Лаборанты работают над задачами в области искусственного интеллекта. Это классная возможность получить научный и продуктовый опыт, поскольку индустриальные проекты становятся частью экосистемы Тинькофф, а научные — основой для публикаций и докладов на конференциях. Лаборантов оформляем на работу в МФТИ, а лучших приглашаем в штат Тинькофф.
На встрече Research 4 Kids выпускники Лаборатории расскажут о своих проектах и о том, как присоединиться к ним в этих исследованиях. Мероприятия пройдут офлайн в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге. Все подробности и регистрация по ссылке: https://l.tinkoff.ru/tlab_research4kids2024
Напомним, что Tinkoff Lab — это исследовательская лаборатория для студентов. Лаборанты работают над задачами в области искусственного интеллекта. Это классная возможность получить научный и продуктовый опыт, поскольку индустриальные проекты становятся частью экосистемы Тинькофф, а научные — основой для публикаций и докладов на конференциях. Лаборантов оформляем на работу в МФТИ, а лучших приглашаем в штат Тинькофф.
На встрече Research 4 Kids выпускники Лаборатории расскажут о своих проектах и о том, как присоединиться к ним в этих исследованиях. Мероприятия пройдут офлайн в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге. Все подробности и регистрация по ссылке: https://l.tinkoff.ru/tlab_research4kids2024
🔥4🎉1
Советую посмотреть, если хотите узнать чем я был занят пол года и причем тут JAX 😳!
Forwarded from Жёлтый AI
Долго ждать записей RL-ивента не пришлось! Если вы не смогли прийти, то теперь можно посмотреть рассказ про:
– Новый метод сбора данных для In-Context RL
– Простой способ делать In-Context RL с генерализацией на новые действия
– Как сделать 1 триллион действий за 2 дня с XLand-MiniGrid
В записях таятся секретные знания о RL будущего, так что они обязательны к просмотру!
– Новый метод сбора данных для In-Context RL
– Простой способ делать In-Context RL с генерализацией на новые действия
– Как сделать 1 триллион действий за 2 дня с XLand-MiniGrid
В записях таятся секретные знания о RL будущего, так что они обязательны к просмотру!
🔥3
Недавно со мной вышло маленькое интервью по мотивам Yandex ML Prize, совместно с Forbes.
Рассказал немного о себе, своем пути к исследованиям, вдохновении и всем таком сентиментальном. Опыт, как и формат, для меня новый, поэтому вышло слегка топорно на мой взгляд, но кому-то может быть интересно вне зависимости от формы подачи! Советую посмотреть, к тому же, там есть интервью и других лауреатов, например моего коллеги и постоянного соавтора Влада Куренкова (@vkurenkov).
Под моим интервью также длинный список всяких интересностей, по ним тоже советую пройтись!
https://www.forbes.ru/special/yandex-ml-prize/?erid=4CQwVszH9pWwnwfPze3
Рассказал немного о себе, своем пути к исследованиям, вдохновении и всем таком сентиментальном. Опыт, как и формат, для меня новый, поэтому вышло слегка топорно на мой взгляд, но кому-то может быть интересно вне зависимости от формы подачи! Советую посмотреть, к тому же, там есть интервью и других лауреатов, например моего коллеги и постоянного соавтора Влада Куренкова (@vkurenkov).
Под моим интервью также длинный список всяких интересностей, по ним тоже советую пройтись!
https://www.forbes.ru/special/yandex-ml-prize/?erid=4CQwVszH9pWwnwfPze3
Лауреаты Yandex ML Prize | Forbes & Yandex
Зачем исследователи из разных стран делятся друг с другом своими разработками? Где мы, сами того не замечая, пользуемся разведочным поиском? Как машинное обучение меняет всю нашу жизнь, приближая будущее, рассказывают ML-специалисты, лауреаты Yandex ML Prize.
🎉10🔥7