Интересное что-то

On Interpretability

Я тут немного погрузился в тему interpretability пока проходил курс AI Alignment (https://t.me/gonzo_ML/2934). В целом в interpretability я особо не верил, потому что ситуация довольно быстро идёт к созданию систем очень большой сложности и чем дальше, тем больше надо пытаться интерпретировать сущность всё более близкую по сложности к мозгу (а в перспективе и более сложную). Глобально я не верю, что система меньшей сложности может хорошо интерпретировать работу системы большей сложности, кроме каких-то вырожденных случаев или прям очень сильных коррелятов какой-то целевой функции (что наверное будет редкостью). Так что, опять же глобально, я думаю, что жить нам дальше с системами, которые мы не сможем интерпретировать, как в общем мы и сейчас живём, не зная что там у соседа в голове.

Но тем не менее, полезно принять чужую точку зрения и посмотреть на ситуацию с неё, что я и сделал.

Одна из ценных находок для меня -- это посты Криса Олаха (Chris Olah, https://colah.github.io/), работы которого на Distill (https://distill.pub/) мне всегда нравились. Из работ после Distill у него и ко была хорошая серия про Transformer Circuits (https://transformer-circuits.pub/). Он кстати и кофаундер Антропика заодно, и в недавнем ноябрьском 5+ часовом (https://t.me/gonzo_ML/3036) Лексе Фридмане он тоже был.

В одном из довольно старых постов на Distill “Zoom In: An Introduction to Circuits” (https://distill.pub/2020/circuits/zoom-in/) мне понравилась метафора микроскопа и мысль про полезность для науки делать zoom in. Мол, микроскопы помогли нам увидеть клетки и открыли дорогу к клеточной биологии. Они дали не количественно новое понимание, а качественно. В этом смысле и, например, визуализации работы нейросетей могут выступить в такой же роли.

Работа про zoom-in делает три спекулятивных утверждения (хотя какие-то подтверждения этих тезисов мы видели):

1. Фичи (features, линейные комбинации конкретных нейронов) -- фундаментальные юниты нейросерей, они задают некие направления в линейных пространствах активаций нейронов слоя. Их можно подробно исследовать и осмыслять.
2. Схемы (circuits, вычислительные подграфы нейросети) -- образуются из фич, которые соединены весами. Тоже можно иследовать и изучать.
3. Универсальность (universality) -- самая спекулятивная часть -- аналогичные фичи и схемы формируются в разных сетях, решающих разные задачи.

Ну, прикольная программа. В 1 и 2 я очень даже верю, насчёт 3 сомневаюсь, вернее верю с оговорками, там конечно должно быть сильное влияние inductive biases и прочих данностей. Но прикольно, если окажется, что несильное.

Это конкретно ложится в тему mechanistic interpretability (mech interp), тут делают zoom-in, изучают выученные репрезентации, ищут circuits. Там рядом есть другие темы, которые мне в целом больше нравятся, например developmental interpretability (dev interp, https://devinterp.com/), где больше смотрят, как структура модели изменяется во время обучения, какие там есть фазы и т.п. Условный Гроккинг (https://t.me/gonzo_ML/831) или работы покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw) скорее сюда.

С dev interp начинать сложновато (хотя если выбрать хороший модельный объект, свою дрозофилу, то может это и не так…). Решил начать с mech interp, тут можно уже на готовых обученных моделях что-то делать, с более короткими циклами. Попутно это всё даёт возможность покопаться в основах, поближе к first principles. Ощущения почти как в старые добрые времена когда на ассемблере или в машинных кодах писал 🙂 Всегда хорошо под микроскопом посмотреть что там в трансформере на низком уровне происходит, а то все высоко в небеса нынче ушли.

54 views10:08