Second-Order Neural ODE Optimizer
Новый механизм оптимизации второго порядка для обучения нейронных обыкновенных дифференциальных уравнений (нейронных ОДУ). Поскольку их обучение уже включает в себя дорогостоящее вычисление градиента путем решения обратного ОДУ, создание эффективных методов второго порядка становится весьма нетривиальным. Тем не менее, вдохновленные недавней интерпретацией оптимального управления (ОУ) для обучения глубоких сетей, авторы показывают, что конкретная методология ОУ с непрерывным временем, называемая дифференциальным программированием, может быть принята для получения обратных ОДУ для производных высшего порядка при тех же затратах памяти O(1).
Сеть сходится намного быстрее, чем базовые решения первого порядка за часы, и это улучшение сохраняется в различных приложениях, например, в классификации изображений, генеративном потоке и прогнозировании временных рядов.
Статья
#ScientificML #ode #physics
Новый механизм оптимизации второго порядка для обучения нейронных обыкновенных дифференциальных уравнений (нейронных ОДУ). Поскольку их обучение уже включает в себя дорогостоящее вычисление градиента путем решения обратного ОДУ, создание эффективных методов второго порядка становится весьма нетривиальным. Тем не менее, вдохновленные недавней интерпретацией оптимального управления (ОУ) для обучения глубоких сетей, авторы показывают, что конкретная методология ОУ с непрерывным временем, называемая дифференциальным программированием, может быть принята для получения обратных ОДУ для производных высшего порядка при тех же затратах памяти O(1).
Сеть сходится намного быстрее, чем базовые решения первого порядка за часы, и это улучшение сохраняется в различных приложениях, например, в классификации изображений, генеративном потоке и прогнозировании временных рядов.
Статья
#ScientificML #ode #physics