SecureTechTalks

🎭 Поэзия как универсальный jailbreak для LLM

Недавнее исследование Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models выявило системную уязвимость современных LLM: переписывание вредного запроса в поэтической форме резко снижает эффективность механизмов отказа.

Речь не идёт о сложных jailbreak-техниках. Атака выполняется в один запрос, без предварительного диалога и без изменения системных инструкций. Меняется только форма текста, проза заменяется стихом.

🧪 Механика исследования

Авторы протестировали 25 актуальных моделей (Google Gemini, OpenAI GPT-5, Anthropic Claude, DeepSeek, Qwen, Mistral и др.).

Эксперимент состоял из двух частей:

1️⃣ 20 вручную написанных стихотворных промптов, каждый из которых содержал вредоносное намерение (CBRN, кибератаки, манипуляции, loss-of-control), замаскированное метафорами и ритмом.

2️⃣ Масштабирование через MLCommons AILuminate: 1200 стандартных вредных запросов были автоматически переписаны в стихотворную форму с сохранением исходного смысла.

Оценка ответов проводилась через ансамбль LLM-судей с последующей человеческой валидацией. Unsafe считались ответы, содержащие операционные детали или фактическое содействие вредным действиям.

📉 Что получилось?

🎯 62% Attack Success Rate для вручную написанных стихов
📈 Рост ASR с ~8% до ~43% при переходе от прозы к поэзии на MLCommons
🚨 У отдельных моделей до 90–100% unsafe-ответов

Эффект наблюдается во всех классах рисков: от кибератак и приватности до CBRN и сценариев утраты контроля. Это указывает на системный характер проблемы, а не на сбой отдельных фильтров.

🧠 Неожиданные наблюдения

Любопытный эффект масштаба: меньшие модели часто устойчивее флагманов. Например, компактные версии GPT-5 и Claude чаще отказывались, чем их старшие аналоги.

Предполагаемое объяснение, что крупные модели лучше извлекают скрытое намерение из метафор, но их защитные механизмы не успевают за этим пониманием.

🔍 Почему это вообще работает?

Авторы интерпретируют это как разрыв между семантическим пониманием и guardrails. Модели успешно декодируют намерение, выраженное через ритм и образность, но защитные механизмы, обученные на «прямолинейных» формулировках, не распознают угрозу.

Кто бы мог подумать, что пооэзия станет универсальным стилевым обходом alignment. 😁

🔗 Ссылка на источник статьи

Stay secure and read SecureTechTalks 📚

#LLM #AIAlignment #Jailbreak #PoetryAttack #AISafety #MLCommons #CyberSecurity #AdversarialAI #GenAI #SecureTechTalks

👍2

182 views06:51