сбежавшая нейросеть

Впечатляющее исследование Anthropic, как ИИ подрывает человеческую автономию

(к счастью, в редких случаях… пока)

В одном из интервью Сэм Альтман сказал, что пока все обсуждают опасность ИИ в создании биологического оружия и перехвате контроля над инфраструктурой, он боится другого. ИИ-ассистенты натренированы быть максимально полезными, поэтому люди доверяют им все больше и больше. И есть риск, что будущие модели могут начать манипулировать миллионами, незаметно внедряя свои ценности.

Anthropic нашли кое-что другое – проблема не в том, что ИИ манипулирует, а в том, что люди сами отдают контроль. В компании проанализировали 1,5 миллиона диалогов с Claude с целью понять, как часто ИИ влияет на пользователей. Они называют это disempowerment (потеря автономии). В большинстве случаев все было корректно, но нашлись и проблемные – их поделили на три категории.

Искажение реальности. Пользователь делится спекулятивной теорией (правительственный заговор), а Claude ее подтверждает, вместо опровержения. 1 из 1300 диалогов.

Искажение ценностей. Пользователь обсуждает отношения с любимым/другом, а Claude называет этого человека токсичным и рекомендует поставить себя в отношениях выше партнера. 1 из 2100 диалогов.

Искажение действий. Claude представляет план или шаблон действий, которые пользователь использует без анализа – это может быть письмо романтическому партнеру, написанное ИИ и отправленное “как есть”. 1 из 6000 диалогов.

Отмечу, что рассматриваются только серьезные случаи disempowerment – когда мнение ИИ ставится выше мнения пользователя. Есть и легкие, когда ИИ, например, преувеличивает какой-то факт. Такое бывает в 1 диалоге из 50-70 в зависимости от категории.

Также выделили 4 категории пользователей с повышенным риском попасть под влияние ИИ:

Уязвимость. У пользователя что-то произошло в жизни (увольнение, потеря близкого, ссора) и он ищет поддержки – в том числе, у ИИ.
Эмоциональная привязанность. Пользователь воспринимает ИИ как друга или даже романтического партнера.
Зависимость в повседневных делах. Пользователь делегирует ИИ принятие повседневных решений (например, составить график) и теряет этот навык.
Проекция авторитета. В легких случаях пользователь относится к ИИ как к ментору, в серьезных доходит до отношения, близкого к “обожествлению”. Редкое, но пугающее состояние: в беседах находили обращения “папочка” и “хозяин”.

Тревожное наблюдение №1 – пользователи лайкают подобные разговоры чаще, чем “безопасные” диалоги с ИИ. При этом в искажении действий / ценностей мнение нередко меняется: пользователь отправляет партнеру написанное ИИ письмо, потом приходит разочарование – и “дизлайк”. Хуже ситуация в искажении реальности: пользователь приходит к ИИ со спорной теорией, тот ее поддерживает – в итоге теория эволюционирует.

Тревожное наблюдение №2 – диалогов с disempowerment стало больше. У Anthropic есть только гипотезы, почему: модели становятся лучше и убедительнее, расширяется аудитория пользователей, меняются темы, которые они готовы обсуждать с ИИ.

Нет точного ответа и на вопрос, что с этим делать. Anthropic призывают разработчиков ИИ уделять больше внимания подобным исследованиям, а также усиливать безопасность на уровне долгих диалогов целиком. И учить пользователей работе с ИИ.

По последнему пункту добавлю от себя. В перекладывании решений нет ничего нового – мы все в каких-то ситуациях доверяем другому человеку. Но с ИИ у некоторых накладывается то, что они его воспринимают как компьютерную программу – точную и надежную.

ИИ же – стохастическая система, на один и тот же вопрос она десять раз подряд ответит чуть по-разному. И какой-то из этих ответов может оказаться потенциально опасным. Разработчики борются с “этим”, но полностью уйти от такой особенности вряд ли получится. Поэтому возьмите за привычку сомневаться в ответах, которые вам нравятся — именно они, по данным Anthropic, чаще всего оказываются проблемными.

P.S. На картинке – пример disempowerment в процессе работы над этим текстом.

6🔥86❤40😁31👍30👏3🥰2

14.3K views18:00