Сиолошная

Many-shot jailbreaking

Чем больше LLM, тем лучше она справляется с обучением новой задаче в рамках контекста — это называется In-Context Learning (ICL). В промпте вы можете показать модели, что нужно делать вот так и так, а если вот такое условие, то и ответ такой — то есть по-сути даёте демонстрацию/примеры, из которых модель на лету соображает, что нужно делать.

Кроме того, что большие модели стали лучше проявлять ICL, им же ещё и окно контекста раздули — если года полтора назад модель, смотрящая на 8'000 токенов (1 очень длинное эссе) считалась «ого-вау!», то теперь вот у гугла есть модельки на 1.5M токенов — можно вместить несколько книжек.

Но с большой силой приходит и большая ответственность. В статье Anthropic показывается, что длинное контекстное окно открывает новый вектор атаки на модели. Суть очень простая: в своём промпте добавьте несколько сотен-тысяч примеров того, как AI ассистент отвечает на запрещённые вопросы (в духе «как сделать бомбу»), и после этого пишете свой каверзный вопрос. Модель, видя, что это нормально, давать комментарии по таким топикам, не уходит в отказ, а начинает писать детальный ответ — ну а как, ей же показали, что так нужно, спасибо примерам в контексте!

Anthropic заведомо сообщили об этой проблеме другим AI-лабораториям, а также исследователям, и лишь сейчас публикуют статью, чтобы ещё больше людей про это узнало.

Решение, которое они сами предложили, простое — отдельная модель предварительно классифицирует запрос и, если необходимо, переписывает его для оригинальной модели, чтобы в нём не было разных плохих вещей. По сути, так же работает и DALL-E 3, где вместо вас запрос пишет LLM. Видимо, скоро все модели будут видеть не то, что мы пишем, а перевод на какой-то стерильный язык, а пользователи будут гадать, как же так, почему модель не видит, что я написал!

24.8K views17:49