"Модификация награды в алгоритмах обучения с подкреплением".
Конечная формулировка задачи обучения с подкреплением включает в себя функцию награды. Зачастую эта функция определяет насколько эффективно будут обучаться те или иные алгоритмы, а так же то, как выглядит оптимальная политика для задачи.
На семинаре мы посмотрим на примеры того, как можно изменять сходимость методов обучения с подкреплением при помощи модификации функции награды различными способами. Так же мы поговорим про основанные на методе потенциалов аддитивные добавки к функции награды, чем они хороши и как их можно использовать при решении задач.
Докладчик: Олег Свидченко.
Язык доклада: русский.
Дата и время: 5-е марта, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
Конечная формулировка задачи обучения с подкреплением включает в себя функцию награды. Зачастую эта функция определяет насколько эффективно будут обучаться те или иные алгоритмы, а так же то, как выглядит оптимальная политика для задачи.
На семинаре мы посмотрим на примеры того, как можно изменять сходимость методов обучения с подкреплением при помощи модификации функции награды различными способами. Так же мы поговорим про основанные на методе потенциалов аддитивные добавки к функции награды, чем они хороши и как их можно использовать при решении задач.
Докладчик: Олег Свидченко.
Язык доклада: русский.
Дата и время: 5-е марта, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
"Поиск лучших архитектур нейронных сетей с помощью обучения с подкреплением".
Нейронные сети - это мощные и гибкие модели, которые хорошо подходят для решения многих сложных задач обучения в понимании образа, речи и естественного языка. Несмотря на их успех, нейронные сети все еще трудно спроектировать. Обычно это происходит вручную, и требует разработчика набраться «опыта».
На семинаре мы рассмотрим две статьи, в которых описывается метод использования обучения с подкреплением для генерации описаний моделей нейронных сетей. Будет рассказано, как с помощью RL можно сгенерировать сеть, которая превосходит все state-of-the-art алгоритмы на таком датасете как CIFAR-10, и как можно автоматически сконструировать рекуррентную сеть, превосходящую LSTM.
Ссылки на статьи: https://arxiv.org/abs/1611.02167 и https://arxiv.org/pdf/1611.01578.pdf
Докладчик: Александра Малышева.
Язык доклада: русский.
Дата и время: 12-е марта, 20:0-21:30.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
Нейронные сети - это мощные и гибкие модели, которые хорошо подходят для решения многих сложных задач обучения в понимании образа, речи и естественного языка. Несмотря на их успех, нейронные сети все еще трудно спроектировать. Обычно это происходит вручную, и требует разработчика набраться «опыта».
На семинаре мы рассмотрим две статьи, в которых описывается метод использования обучения с подкреплением для генерации описаний моделей нейронных сетей. Будет рассказано, как с помощью RL можно сгенерировать сеть, которая превосходит все state-of-the-art алгоритмы на таком датасете как CIFAR-10, и как можно автоматически сконструировать рекуррентную сеть, превосходящую LSTM.
Ссылки на статьи: https://arxiv.org/abs/1611.02167 и https://arxiv.org/pdf/1611.01578.pdf
Докладчик: Александра Малышева.
Язык доклада: русский.
Дата и время: 12-е марта, 20:0-21:30.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
arXiv.org
Designing Neural Network Architectures using Reinforcement Learning
At present, designing convolutional neural network (CNN) architectures requires both human expertise and labor. New architectures are handcrafted by careful experimentation or modified from a...
Уважаемые коллеги,
приглашаем Вас посетить семинар "Обучение с подкреплением миллионной популяции агентов".
В данном докладе будет рассмотрена пара окружений, изучающих большие популяции агентов и показано, чем данные модели могут быть интересны и полезны.
Мы рассмотрим эмпирические исследование по выявлению упорядоченной коллективной динамики, получаемой группой разведчиков, управляемой алгоритмом обучения с подкреплением для миллиона агентов. Авторы одной из статей помещают интеллектуальных агентов в моделируемый естественный контекст и проверяют, могут ли принципы, разработанные в реальном мире, также использоваться для понимания искусственно созданной интеллектуальной популяции. Результаты показывают, что популяционная динамика агентов ИИ, управляемая только индивидуальными личными интересами каждого агента, выявляет упорядоченную модель, аналогичную модели Лотки-Вольтерра, изучаемой в биологии населения. Кроме того, мы обнаруживаем возникающее поведение коллективных адаптаций при изучении того, как групповое поведение агентов будет меняться в зависимости от природных ресурсов. Оба эти открытия могут быть объяснены теорией самоорганизации в природе.
Ссылка на статью: https://arxiv.org/pdf/1709.04511.pdf
Докладчик: Иван Ильчук.
Язык доклада: русский.
Дата и время: 19-е марта, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
приглашаем Вас посетить семинар "Обучение с подкреплением миллионной популяции агентов".
В данном докладе будет рассмотрена пара окружений, изучающих большие популяции агентов и показано, чем данные модели могут быть интересны и полезны.
Мы рассмотрим эмпирические исследование по выявлению упорядоченной коллективной динамики, получаемой группой разведчиков, управляемой алгоритмом обучения с подкреплением для миллиона агентов. Авторы одной из статей помещают интеллектуальных агентов в моделируемый естественный контекст и проверяют, могут ли принципы, разработанные в реальном мире, также использоваться для понимания искусственно созданной интеллектуальной популяции. Результаты показывают, что популяционная динамика агентов ИИ, управляемая только индивидуальными личными интересами каждого агента, выявляет упорядоченную модель, аналогичную модели Лотки-Вольтерра, изучаемой в биологии населения. Кроме того, мы обнаруживаем возникающее поведение коллективных адаптаций при изучении того, как групповое поведение агентов будет меняться в зависимости от природных ресурсов. Оба эти открытия могут быть объяснены теорией самоорганизации в природе.
Ссылка на статью: https://arxiv.org/pdf/1709.04511.pdf
Докладчик: Иван Ильчук.
Язык доклада: русский.
Дата и время: 19-е марта, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
На этой неделе снова возобновляются семинары!
Пока ждете анонса, можно посмотреть последний доклад:
Поиск лучших архитектур нейронных сетей с помощью обучения с подкреплением
https://www.youtube.com/watch?v=wQEOi9qMUJw&list=PLJyTG7NfyQ8lAH1QF2Frwq6aQdxyyIqAx
Пока ждете анонса, можно посмотреть последний доклад:
Поиск лучших архитектур нейронных сетей с помощью обучения с подкреплением
https://www.youtube.com/watch?v=wQEOi9qMUJw&list=PLJyTG7NfyQ8lAH1QF2Frwq6aQdxyyIqAx
YouTube
Поиск лучших архитектур нейронных сетей с помощью обучения с подкреплением
Нейронные сети - это мощные и гибкие модели, которые хорошо подходят для решения многих сложных задач обучения в понимании образа, речи и естественного языка...
Приглашаем Вас посетить семинар "Lifelong Learning".
Человеческий мозг способен накапливать знания и эффективно использовать их для решения новых, ранее не виденных задач. В машинном обучении (и обучении с подкреплением в частности) такой перенос знаний во многом остается открытой проблемой.
Мы поговорим об одном из подходов к ее решению, получившему название Continual или Lifelong Learning. В рамках этого подхода предполагается, что модель последовательно обучается связанным или не связанным между собой задачам, используя накопленный ею релевантный опыт.
Мы обсудим основные направления развития Continual/Lifelong Learning, фокусируясь прежде всего на глубинном обучении в обучении с подкреплением. В частности, речь пойдет о PG-ELLA [1], Policy Distillation [2], Learning without Forgetting [3] и Pseudo-Rehearsal [4].
[1] Ammar, et al. "Online multi-task learning for policy gradient methods." ICML (2014). http://proceedings.mlr.press/v32/ammar14.pdf
[2] Rusu, et al. "Policy distillation." arXiv preprint (2015). https://arxiv.org/pdf/1511.06295
[3] Li & Hoiem. "Learning without forgetting." IEEE Trans. Patt. An. Machine Intelligence (2018). https://arxiv.org/pdf/1606.09282
[4] Atkinson, et al. "Pseudo-Rehearsal: Achieving Deep Reinforcement Learning without Catastrophic Forgetting." arXiv preprint (2018). https://arxiv.org/pdf/1812.02464
Докладчик: Азат Тагиджанов.
Язык доклада: русский.
Дата и время: 2-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
Человеческий мозг способен накапливать знания и эффективно использовать их для решения новых, ранее не виденных задач. В машинном обучении (и обучении с подкреплением в частности) такой перенос знаний во многом остается открытой проблемой.
Мы поговорим об одном из подходов к ее решению, получившему название Continual или Lifelong Learning. В рамках этого подхода предполагается, что модель последовательно обучается связанным или не связанным между собой задачам, используя накопленный ею релевантный опыт.
Мы обсудим основные направления развития Continual/Lifelong Learning, фокусируясь прежде всего на глубинном обучении в обучении с подкреплением. В частности, речь пойдет о PG-ELLA [1], Policy Distillation [2], Learning without Forgetting [3] и Pseudo-Rehearsal [4].
[1] Ammar, et al. "Online multi-task learning for policy gradient methods." ICML (2014). http://proceedings.mlr.press/v32/ammar14.pdf
[2] Rusu, et al. "Policy distillation." arXiv preprint (2015). https://arxiv.org/pdf/1511.06295
[3] Li & Hoiem. "Learning without forgetting." IEEE Trans. Patt. An. Machine Intelligence (2018). https://arxiv.org/pdf/1606.09282
[4] Atkinson, et al. "Pseudo-Rehearsal: Achieving Deep Reinforcement Learning without Catastrophic Forgetting." arXiv preprint (2018). https://arxiv.org/pdf/1812.02464
Докладчик: Азат Тагиджанов.
Язык доклада: русский.
Дата и время: 2-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
Уважаемые коллеги,
приглашаем Вас посетить семинар "Обучение с подкреплением с использованием предпочтений человека".
Для некоторых систем RL очень сложно установить взаимосвязь между общей целью и функцией награды, которая используется в state-of-the-art системах. Мы рассмотрим подход, который способен решать задачи без явного доступа к самой функции награды. Также, этот подход будет учитывать траектории, выбранные самими пользователями. Экспериментальные результаты будут представлены на основе Atari игр и в симуляторе MuJoCo.
Докладчик: Михаил Шавкунов.
Язык доклада: русский.
Дата и время: 9-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
приглашаем Вас посетить семинар "Обучение с подкреплением с использованием предпочтений человека".
Для некоторых систем RL очень сложно установить взаимосвязь между общей целью и функцией награды, которая используется в state-of-the-art системах. Мы рассмотрим подход, который способен решать задачи без явного доступа к самой функции награды. Также, этот подход будет учитывать траектории, выбранные самими пользователями. Экспериментальные результаты будут представлены на основе Atari игр и в симуляторе MuJoCo.
Докладчик: Михаил Шавкунов.
Язык доклада: русский.
Дата и время: 9-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
Приглашаем Вас посетить семинар "Ограничение действий агента в обучении с подкреплением".
Часто в задачах обучения с подкреплением возникает потребность ограничить возможные действия агента. Например, в системах, взаимодействующих с людьми, это ограничения могут быть продиктованы соображениями безопасности.
На семинаре мы рассмотрим статью "Constrained Policy Optimization", авторы которой адаптируют trust region optimization для constrained MDP, гарантируя выполнение ограничений на каждом шаге обучения. Они также приводят теоретические нижние оценки на сходимость policy, которые могут быть полезны и в других алгоритмах RL. Кроме того, авторы предлагают модификации, позволяющие использовать этот подход на практике, и приводят результаты экспериментов на задаче Gather ("собрать яблоки, избегая мины") и других.
Ссылка на статью: https://arxiv.org/abs/1705.10528
Докладчик: Илья Кайсин.
Язык доклада: русский.
Дата и время: 16-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
Часто в задачах обучения с подкреплением возникает потребность ограничить возможные действия агента. Например, в системах, взаимодействующих с людьми, это ограничения могут быть продиктованы соображениями безопасности.
На семинаре мы рассмотрим статью "Constrained Policy Optimization", авторы которой адаптируют trust region optimization для constrained MDP, гарантируя выполнение ограничений на каждом шаге обучения. Они также приводят теоретические нижние оценки на сходимость policy, которые могут быть полезны и в других алгоритмах RL. Кроме того, авторы предлагают модификации, позволяющие использовать этот подход на практике, и приводят результаты экспериментов на задаче Gather ("собрать яблоки, избегая мины") и других.
Ссылка на статью: https://arxiv.org/abs/1705.10528
Докладчик: Илья Кайсин.
Язык доклада: русский.
Дата и время: 16-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
arXiv.org
Constrained Policy Optimization
For many applications of reinforcement learning it can be more convenient to specify both a reward function and constraints, rather than trying to design behavior through the reward function. For...
Приглашаем Вас посетить семинар "Concrete Problems in AI Safety".
Быстрый прогресс в области машинного обучения и искусственного интеллекта привлекает все большее внимание к возможному воздействию, которое AI может иметь на общество. Одно из таких воздействий - проблема аварий в системах с машинным обучением.
На семинаре мы рассмотрим статью "Concrete Problems in AI Safety" и разберем пять проблем, связанных с авариями, которые можно категоризовать на три класса: возникающие из-за неправильной целевой функции, слишком дорогой для частого подсчета целевой функции или нежелательного поведения в процессе обучения.
Ссылка на статью: https://arxiv.org/abs/1606.06565
Докладчик: Катерина Кощенко.
Язык доклада: русский.
Дата и время: 23-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
Быстрый прогресс в области машинного обучения и искусственного интеллекта привлекает все большее внимание к возможному воздействию, которое AI может иметь на общество. Одно из таких воздействий - проблема аварий в системах с машинным обучением.
На семинаре мы рассмотрим статью "Concrete Problems in AI Safety" и разберем пять проблем, связанных с авариями, которые можно категоризовать на три класса: возникающие из-за неправильной целевой функции, слишком дорогой для частого подсчета целевой функции или нежелательного поведения в процессе обучения.
Ссылка на статью: https://arxiv.org/abs/1606.06565
Докладчик: Катерина Кощенко.
Язык доклада: русский.
Дата и время: 23-е апреля, 18:30-20:00.
Место: Таймс, аудитория 204.
arXiv.org
Concrete Problems in AI Safety
Rapid progress in machine learning and artificial intelligence (AI) has brought increasing attention to the potential impacts of AI technologies on society. In this paper we discuss one such...
Следующий, последний доклад в этом учебном году, будет только через месяц - 21 мая!
Приходите послушать :)
Приходите послушать :)
Приглашаем Вас посетить семинар "Обзор конференции AAMAS 2019".
В связи с быстрым развитием в области обучения с подкреплением и искусственного интеллекта все сложнее уследить за новыми статьям. Недавно прошла одна из самых важных конференции по обучению с подкреплением — AAMAS. В данном докладе будут упомянуты все самый интересные идеи и статьи, которые были озвучены на конференции.
На семинаре будут рассматриваться статьи из deepmind: о новых окружениях для мультиагентных систем, также будет рассмотрены способы обучения агента по демонстрации, и то, как можно обучать агента конструировать идеальное тело для роботобоев.
Помимо этого в докладе будут рассмотрены статьи о Safe AI: о том, как и почему можно и нужно модерировать поведения искусственного интеллекта с точки зрения этики, и к чему может привести отсутсвие анализа поведения ИИ. Дополнительно будет небольшой рассказ о Hierarchical Lifelong Reinforcement Learning.
Докладчик: Александра Малышева.
Язык доклада: русский.
Дата и время: 28-е мая, 18:30-20:00.
Место: Таймс, аудитория 204.
В связи с быстрым развитием в области обучения с подкреплением и искусственного интеллекта все сложнее уследить за новыми статьям. Недавно прошла одна из самых важных конференции по обучению с подкреплением — AAMAS. В данном докладе будут упомянуты все самый интересные идеи и статьи, которые были озвучены на конференции.
На семинаре будут рассматриваться статьи из deepmind: о новых окружениях для мультиагентных систем, также будет рассмотрены способы обучения агента по демонстрации, и то, как можно обучать агента конструировать идеальное тело для роботобоев.
Помимо этого в докладе будут рассмотрены статьи о Safe AI: о том, как и почему можно и нужно модерировать поведения искусственного интеллекта с точки зрения этики, и к чему может привести отсутсвие анализа поведения ИИ. Дополнительно будет небольшой рассказ о Hierarchical Lifelong Reinforcement Learning.
Докладчик: Александра Малышева.
Язык доклада: русский.
Дата и время: 28-е мая, 18:30-20:00.
Место: Таймс, аудитория 204.
Уважаемые коллеги, приглашаем Вас посетить семинар "Почему иерархическое обучение (иногда) работает?".
ВНИМАНИЕ: семинар будет проходить онлайн по ссылке: https://zoom.us/j/380953334
Время начала: 18:30
Инструкция по использованию Zoom: http://bit.ly/ZOOM_man
Иерархическое обучение позволяет успешно решать сложные задачи, такие как управление роботом, или требующие много действий для достижения цели.
Одной из возможных причин такой эффективности, является фактическое сокращение длинны эпизода, т.к. одно действие верхнего уровня соответсвует нескольким итерациям среды. Также причиной может быть использование семантический более простых действий на верхнем уровне, например желаемое изменение состояния.
На семинаре рассмотрим state-of-the-art методы иерархического обучения и статью в которой исследуются несколько гипотез объясняющих его хорошую работу, а так же возможность использование иерархии для ускорения исследования среды.
ВНИМАНИЕ: семинар будет проходить онлайн по ссылке: https://zoom.us/j/380953334
Время начала: 18:30
Инструкция по использованию Zoom: http://bit.ly/ZOOM_man
Иерархическое обучение позволяет успешно решать сложные задачи, такие как управление роботом, или требующие много действий для достижения цели.
Одной из возможных причин такой эффективности, является фактическое сокращение длинны эпизода, т.к. одно действие верхнего уровня соответсвует нескольким итерациям среды. Также причиной может быть использование семантический более простых действий на верхнем уровне, например желаемое изменение состояния.
На семинаре рассмотрим state-of-the-art методы иерархического обучения и статью в которой исследуются несколько гипотез объясняющих его хорошую работу, а так же возможность использование иерархии для ускорения исследования среды.
Уважаемые коллеги, приглашаем Вас посетить семинар "Dream To Control".
Большинство существующих алгоритмов обучения с подкреплением исходят из того, что то, как устроена среда, нам не известно. Это накладывает существенные ограничения на возможности обучения агента и класса используемых алгоритмов. Благодаря глубокому обучению, мы можем создать искусственную модель динамики среды тем самым обойдя эти ограничения. Имея такую модель, мы можем применить ее разными способами для повышения эффективности агента.
На семинаре мы рассмотрим две статьи, которые предлагают способы использования обучаемой модели среды, и обсудим преимущества и недостатки каждого из подходов.
Докладчик: Олег Свидченко.
Язык доклада: русский.
Дата и время: 23-е марта, 18:30-20:00.
Место: https://zoom.us/j/721102369 pass: 024498
Большинство существующих алгоритмов обучения с подкреплением исходят из того, что то, как устроена среда, нам не известно. Это накладывает существенные ограничения на возможности обучения агента и класса используемых алгоритмов. Благодаря глубокому обучению, мы можем создать искусственную модель динамики среды тем самым обойдя эти ограничения. Имея такую модель, мы можем применить ее разными способами для повышения эффективности агента.
На семинаре мы рассмотрим две статьи, которые предлагают способы использования обучаемой модели среды, и обсудим преимущества и недостатки каждого из подходов.
Докладчик: Олег Свидченко.
Язык доклада: русский.
Дата и время: 23-е марта, 18:30-20:00.
Место: https://zoom.us/j/721102369 pass: 024498
Уважаемые коллеги,
приглашаем Вас посетить семинар "Agent57: Outperforming the Atari Human Benchmark".
Atari57 в последние несколько лет является, наверно, одним из самых популярных наборов сред для обучения с подкреплением, сочетая в себе большое количество разнообразных задач для проверки качества алгоритмов. Большинство алгоритмов обучения с подкреплением успешно превосходят людей в большей части из этих игр, однако до настоящего момента ни один из алгоритмов не мог показывать стабильно высокие результаты во всех играх из представленных.
На семинаре мы рассмотрим статью с алгоритмом Agent57, который стабильно превосходит human baseline в каждой из 57 игр путем сочетания комбинации подходов для эффективного исследования среды и адаптивного механизма выбора между exploration и exploitation
Докладчик: Роман Бельтюков.
Язык доклада: русский.
Дата и время: 6-е апреля, 18:30-20:00.
Место: https://zoom.us/j/721102369 пароль 024498
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
приглашаем Вас посетить семинар "Agent57: Outperforming the Atari Human Benchmark".
Atari57 в последние несколько лет является, наверно, одним из самых популярных наборов сред для обучения с подкреплением, сочетая в себе большое количество разнообразных задач для проверки качества алгоритмов. Большинство алгоритмов обучения с подкреплением успешно превосходят людей в большей части из этих игр, однако до настоящего момента ни один из алгоритмов не мог показывать стабильно высокие результаты во всех играх из представленных.
На семинаре мы рассмотрим статью с алгоритмом Agent57, который стабильно превосходит human baseline в каждой из 57 игр путем сочетания комбинации подходов для эффективного исследования среды и адаптивного механизма выбора между exploration и exploitation
Докладчик: Роман Бельтюков.
Язык доклада: русский.
Дата и время: 6-е апреля, 18:30-20:00.
Место: https://zoom.us/j/721102369 пароль 024498
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
Уважаемые коллеги,
приглашаем Вас посетить семинар "Sample Efficiency in RL".
Чтобы добиться хороших результатов в любой из областей машинного обучения, нужно большое количество данных, например, для обучения агента, который может выполнять сложные задачи, получая на вход лишь набор пикселей, необходимо несколько миллионов взаимодействий со средой. Однако, во-первых, это требует много времени, а во-вторых, иногда нельзя позволить слишком много взаимодействовать со средой, например, когда агент обучается в реальном мире, а не на симуляции.
На семинаре будут рассмотрены существующие подходы к уменьшению количества взаимодействий со средой в RL, а также SOTA алгоритм Contrastive Unsupervised Representation for Reinforcement Learning, вобравший в себя идеи из разных областей машинного обучения.
Докладчик: Владислав Мосин.
Язык доклада: русский.
Дата и время: 27-е апреля, 18:30-20:00.
Место: https://zoom.us/j/721102369
пароль 024498
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
приглашаем Вас посетить семинар "Sample Efficiency in RL".
Чтобы добиться хороших результатов в любой из областей машинного обучения, нужно большое количество данных, например, для обучения агента, который может выполнять сложные задачи, получая на вход лишь набор пикселей, необходимо несколько миллионов взаимодействий со средой. Однако, во-первых, это требует много времени, а во-вторых, иногда нельзя позволить слишком много взаимодействовать со средой, например, когда агент обучается в реальном мире, а не на симуляции.
На семинаре будут рассмотрены существующие подходы к уменьшению количества взаимодействий со средой в RL, а также SOTA алгоритм Contrastive Unsupervised Representation for Reinforcement Learning, вобравший в себя идеи из разных областей машинного обучения.
Докладчик: Владислав Мосин.
Язык доклада: русский.
Дата и время: 27-е апреля, 18:30-20:00.
Место: https://zoom.us/j/721102369
пароль 024498
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
Уважаемые коллеги,
приглашаем Вас посетить семинар "Self-Tuning Deep Reinforcement Learning".
Алгоритм машинного обучения с подкреплением может требовать различные гиперпараметры в зависимости от специфики задачи, которую он решает. Эти параметры следует настраивать таким образом, чтобы алгоритм мог оптимально решить задачу обучения. Но подобрать такие значения параметров иногда бывает проблематично.
На семинаре будут рассмотрены некоторые подходы решения данной проблемы, представленные в статье “Self-Tuning Deep Reinforcement Learning”. Разберем алгоритмы STAC и STACX, которые подбирают гиперпараметры самостоятельно.
Докладчик: Алина Плешкова.
Язык доклада: русский.
Дата и время: 11-е мая, 18:30-20:00.
Место: https://zoom.us/j/721102369 пароль 024498
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
приглашаем Вас посетить семинар "Self-Tuning Deep Reinforcement Learning".
Алгоритм машинного обучения с подкреплением может требовать различные гиперпараметры в зависимости от специфики задачи, которую он решает. Эти параметры следует настраивать таким образом, чтобы алгоритм мог оптимально решить задачу обучения. Но подобрать такие значения параметров иногда бывает проблематично.
На семинаре будут рассмотрены некоторые подходы решения данной проблемы, представленные в статье “Self-Tuning Deep Reinforcement Learning”. Разберем алгоритмы STAC и STACX, которые подбирают гиперпараметры самостоятельно.
Докладчик: Алина Плешкова.
Язык доклада: русский.
Дата и время: 11-е мая, 18:30-20:00.
Место: https://zoom.us/j/721102369 пароль 024498
Видео с предыдущих семинаров доступно по ссылке: http://bit.ly/MLJBSeminars
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…