AI, life and balance

Новые архитектуры (не трансформеры). Часть 1

В апреле этого года на arxive.org появилась очень интересная статья, которая наделала шума (да, сейчас конец октября, но лучше поздно, чем никогда). Речь о публикации «KAN: Kolmogorov-Arnold Networks», которая предлагает новую архитектуру для нейросетей, и я сейчас попробую в двух словах объяснить, почему она так замечательна.
Во-первых, архитектура новая, но базовые принципы у нее старые – теорема Колмогорова-Арнольда. Если коротко, эта теорема гласит, что любую очень сложную функцию, которая зависит от множества переменных, можно представить в виде суммы простых функций, каждая из которых зависит от одной переменной.
Во-вторых, современные нейросети построены на базе многослойных перцептронов (Multilayer Perceptron). О том, кто такой многослойный перцептрон я писала здесь, и еще не мое, но очень хорошее объяснение есть здесь. Коротко: мы имеем сеть из нескольких слоев, на каждом из которых данные преобразуются линейным способом. В конце к ним применяется нелинейная функция, и готово – у нас есть ответ.
В сложных нейросетях большого размера есть несколько (много) нелинейных функций, которые применяются после группы линейных слоев. Больше слоев – более сложные данные могут быть обработаны. Число нелинейных преобразований и сами такие преобразования определены заранее, как и число линейных слоев – это параметры зафиксированы, меняются коэффициенты (на которые мы в каждом слое умножаем данные и которые мы прибавляем к данным).
А у сетей Колмогорова-Арнольда вообще нет никаких линейных весов. Все ее параметры – функции от одной переменной, и все они определяются в процессе обучения, а не задаются заранее. Это делает сети намного более гибкими, масштабируемыми и, что важно, более удобными с точки зрения интерпретации человеком (все хорошо, мы сейчас к этому придем).
В статье очень много красивой математики, но я не стану здесь ее пересказывать, чтобы не перегружать пост. Сосредоточимся на ключевых моментах.
Сети Колмогорова-Арнольда в сущности своей комбинируют свойства перцептронов, которые очень хорошо масштабируются (то есть, которые можно слоями складывать, чтобы получить более высокую точность) и сплайнов. Сплайн – это такая математическая функция, которая собрана из кусочков других функций, и может, таким образом, принимать сколь угодно сложную форму. Симпатичное объяснение с картинками есть вот здесь, посмотрите для лучшего понимания.
То есть, сети Колмогорова-Арнольда могут, во-первых, адаптироваться к данным очень сложной структуры (читаем «почти любым данным из реального мира»), во-вторых, легко увеличиваться в размерах (при этом занимая меньше места, чем перцептроны сопоставимого размера, посмотрите на строку «Model (Deep)» на скриншоте). Это ли не потрясающе?
Так что там с интерпретацией человеком? Мы можем визуализировать функции, которые применяет сеть, и своими глазами увидеть, как именно она работает. А еще мы можем взаимодействовать с ней и изменять эти функции, чтобы посмотреть, как изменится результат.
Если мы говорим в терминах объяснимого ИИ или ответственного ИИ, это отличная новость, потому что на данный момент одна из главных проблем работы с глубокими нейросетями в том, что мы понятия не имеем, что и где пошло не так (а оно пошло). Сети Колмогорова-Арнольда имеют потенциал в решении этой задачи.
Разумеется, у этих сетей есть свои ограничения. Например, они намного более медленно учатся. Однако точность многообещающая, и потенциальных областей применения у них немало (авторы указывают решение задач из области физики и математики в качестве приоритетных, однако сети уже хорошо показали себя в работе с изображениями, потенциально могут улучшить распознавание речи и много чего еще).
На момент написания поста (середина октября) я не нашла упоминаний о практическом применении сетей Колмогорова-Арнольда (упоминаний о том, что какой-то крупный разработчик нейросетей ими занимается, например). Но совершенно точно профессиональное сообщество активно заинтересовано, так что ждем.

67 views13:16