AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning

ArXiv
Работа расширяющая Фреймворк

#ScientificML #RL #economics
DECORE: Deep Compression with Reinforcement Learning

Многие глубокие нейронные сети имеют от миллионов до миллиардов параметров, что делает их непригодными для реальных приложений с ограничениями памяти или работы с низкой задержкой. Поэтому для широкого распространения глубокого обучения необходимо использовать мощные методы сжатия сетей (включая квантизация и тд). Авторы представляют DECORE, подход к обучению с подкреплением для автоматизации процесса сжатия сети. Используя простой метод градиентной политики для изучения того, какие нейроны или каналы следует оставить или удалить.

В отличие от других методов, DECORE прост и быстр в обучении, требуя всего несколько часов обучения на 1 GPU. При применении к стандартным сетевым архитектурам на различных наборах данных наш подход достигает сжатия от 11x до 103x на различных архитектурах, сохраняя при этом точность, аналогичную точности исходных больших сетей.

arXiv

#compression #inference #RL
Лекции по RL от DeepMind

Преподаваемая исследователями DeepMind, эта серия была создана в сотрудничестве с Университетским колледжем Лондона (UCL), чтобы предложить студентам всестороннее введение в современное обучение с подкреплением.

Сайт

#RL
This media is not supported in your browser
VIEW IN TELEGRAM
WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU

WarpDrive - это гибкая, легкая и простая в использовании система обучения с подкреплением (RL) с открытым исходным кодом, которая реализует многоагентный RL на одном GPU.

Используя возможности экстремального распараллеливания графических процессоров, WarpDrive позволяет на порядки ускорить RL по сравнению с симуляцией на CPU + реализацией моделей на GPU. Он чрезвычайно эффективен, поскольку позволяет избежать копирования данных "туда-сюда" между CPU и GPU, а также параллельно выполнять моделирование для нескольких агентов и нескольких копий среды. В совокупности это позволяет пользователю запускать тысячи параллельных мультиагентных симуляций и тренироваться на очень больших батчах, достигая более чем 100-кратной пропускной способности по сравнению с аналогами на базе CPU.

GitHub

#RL #resources
Physics-based Deep Learning

Этот документ содержит практическое и исчерпывающее введение во все, что связано с глубоким обучением в контексте физического моделирования. По мере возможности все темы сопровождаются практическими примерами кода в виде блокнотов Jupyter для быстрого начала работы. Помимо стандартного обучения на данных, рассматривают ограничения на физические потери, дифференцируемые симуляции, а ещё обучение с подкреплением и моделирование неопределенности.

Мы живем в захватывающие времена: эти методы обладают огромным потенциалом, чтобы фундаментально изменить то, чего могут достичь компьютерные симуляции!

Книга
Сайт

#books #physics #ScientificML #RL
This media is not supported in your browser
VIEW IN TELEGRAM
Braxlines

Braxlines - это серия минималистичных реализаций для формулировок задач RL, выходящих за рамки простой максимизации вознаграждения. Он построен на основе JAX физического симулятора Brax, предназначенного для использования на GPU и прочих ускорителях. Brax эффективен как для одноядерного обучения, так и для массивно-параллельного моделирования.

Обучение политикам с помощью Braxlines занимает менее нескольких минут. Brax работает со скоростью миллионы физических шагов в секунду на TPU (доступно в колабе)

💻 Код и Colab
📎 Статья

#RL
Команда исследователей из DeepMind нашла применение для RL в ядерном синтезе. Ядерный синтез с использованием магнитного удержания является многообещающим путем к достижению устойчивой энергии. Основной проблемой является формирование и поддержание высокотемпературной плазмы внутри сосуда токамака. Для удержания плазмы необходим нечеловеческий уровень управления катушками магнитных приводов.

В новой работе представили метод для проектирования магнитного контроллера токамака, который автономно обучается управлять полным набором катушек. DeepMind успешно демонстрируют контроль за разнообразными конфигурации плазмы.

Предложенный подход демонстрирует потенциал обучения с подкреплением для ускорения исследований в области термоядерного синтеза.

Астрологи явно обьявили 2022 год годом RL. Казалось бы, на фоне успехов в глубоком обучении, на обучение с подкреплением (RL) начали забивать даже OpenAI, которые с него начали свой звёздный путь. Но видимо это было затишье перед бурей.

📎 Статья

#ScientificML #RL