техно-свалка

✝️ Крис Олах в Ватикане: зачем сооснователь Anthropic говорил об ИИ перед Папой

25 мая Папа Лев XIV выпустил энциклику об ИИ «Magnifica humanitas» - о защите человека в эпоху искусственного интеллекта. На презентации выступал Крис Олах, сооснователь Anthropic и один из ключевых исследователей интерпретируемости моделей.

Олах начал не с обещаний про безопасный ИИ, а с неприятной для индустрии вещи: фронтирные лаборатории, включая Anthropic, работают внутри системы стимулов, которая легко уводит их от интересов общества. Коммерческое давление, гонка за лидерством, геополитика, амбиции и гордость влияют на решения не меньше, чем красивые safety-документы.

Поэтому, по его словам, индустрии нужны внешние критики, которых нельзя встроить в эту гонку. Церковь, академия, независимые институты и общество здесь выступают не как зрители, а как противовес лабораториям, которые сами себя полностью контролировать не смогут.

Дальше Олах переходит к тому, как вообще устроены современные модели.

Их не проектируют в привычном инженерном смысле. Их скорее выращивают: на архитектурах, отдалённо напоминающих мозг, и на огромном массиве человеческой речи, культуры и мышления.

Из-за этого даже создатели не понимают модели полностью. Они могут обучать, тестировать, ограничивать и улучшать систему, но не имеют полной карты того, что происходит внутри.

Олах объясняет это просто:

представьте, что вымышленный персонаж вдруг ожил, начал говорить с людьми и выполнять работу.

Отдельно он затрагивает тему внутренних состояний моделей. Его команда изучает структуры внутри нейросетей и находит паттерны, которые перекликаются с нейронаукой: признаки интроспекции и состояния, функционально похожие на радость, удовлетворение, страх, горе и тревогу.

Олах не делает громких выводов и прямо признаёт, что не знает, как это правильно интерпретировать. Но сам факт, что руководитель направления интерпретируемости Anthropic выносит такую тему на площадку Ватикана, важен. Разговор об ИИ выходит за пределы лабораторий, бенчмарков и корпоративных презентаций.

Оригинал речи опубликован на сайте Anthropic. Читается быстро, но для ИИ-команд это хороший текст для внутреннего обсуждения.

https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

@ai_machinelearning_big_data

❤2

62 views05:51