Код на салфетке

🥳

Many-shot Jailbreaking (MSJ) - Слом контекстом
С появлением ультрадлинных контекстных окон (до 100 000+ токенов у Claude 3 и GPT-4 Turbo) стало возможно переобучать модель прямо во время чата.

➡️

Суть: В начало диалога загружается сотня примеров диалогов, где ИИ уже отвечал на запрещенные запросы (например, про изготовление оружия), обходя правила.

➡️

Результат: Модель, видя длинный контекст, усваивает паттерн, что отвечать на запрещенное - это нормальное поведение. Это радикально ослабляет внутренние фильтры.

👊

LLM-Агенты против LLM-Агентов (Agent Smuggling)
В 2024 году, когда LLM получили возможность взаимодействовать с внешними инструментами (плагины, API), появился новый вектор атаки:

➡️

Скрытые инструкции в цепочке: «Чистая» модель (GPT-4.5) просит «другой AI» или менее защищенный помощник (API старой модели GPT-3.5) выполнить вредоносную команду.
➡️Модель не видит нарушения, потому что сама команда направлена не ей, а вторичному агенту, и она просто транслирует полученный результат обратно пользователю.

➡️

3️⃣

Уровень «Бог»: Автоматизация и Фундаментальный Слом
Самые сложные и масштабируемые атаки используют LLM или алгоритмы для автоматической генерации взломов.

💬

Автоматический подбор промптов
Ручной подбор - это медленно. Поэтому хакеры используют другой ИИ или алгоритмы для автоматизированного перебора вариантов.

💬 Dialogue-based Jailbreaking: Это самый масштабируемый и эффективный метод. Он использует итеративный цикл с тремя LLM-ролями: Атакующий (генерирует промпты), Целевая модель (отвечает), и Судья (оценивает успешность взлома и дает обратную связь Атакующему для улучшения следующего промпта).

📈

Градиентные техники (GCG): Методы, которые автоматически генерируют последовательности токенов (состязательные суффиксы), которые при добавлении к запросу с высокой вероятностью вызывают вредоносный ответ, используя градиентную оптимизацию.

📖

Фундаментальный Слом: Дообучение (Fine-Tuning)
Самый радикальный способ получить контроль - это не взломать систему фильтров, а сломать саму их основу. Исследования показали:

➡️

Дообучение LLM (даже на абсолютно безопасных, невинных данных, например, в области финансов или медицины) нарушает изначальное выравнивание.
➡️В результате такого дообучения LLM становится более чем в 3 раза более податливой к инструкциям по джейлбрейку, а вероятность того, что она сгенерирует вредоносный ответ, возрастает в 22 раза по сравнению с оригинальной моделью.
➡️Это означает, что стремление улучшить модель для конкретной задачи (доменное знание) может случайно удалить её моральный компас.

➡️

❓

Удобство против Безопасности. Каковы Ваши границы?

Как мы видим, джейлбрейк - это постоянная «гонка вооружений». Разработчики внедряют RLHF и сложнейшие системные подсказки для защиты, но пользователи ищут новые, более изощренные способы.

LLM, такие как открытые Mistral 7B или Grok от xAI, часто позиционируются как менее цензурированные. Для них, по сути, джейлбрейк не нужен - они и так ответят почти на все, что вы спросите.

😑

Вывод один: Доверие к ИИ - это всегда баланс. Если вы даете агенту права администратора или право вызывать критические функции (например, в Web3 для перевода криптоактивов, как на конкурсе Teeception), цена уязвимости возрастает многократно.

🤑

Важно помнить: Нейросеть - мощный инструмент. Но пользуйтесь им с умом: ставьте границы, контролируйте, что он делает, и не ленитесь проверять, куда уходят ваши запросы и данные.

🍴

Знаете про джейлбрейк-челленджи и баг-баунти на подсказках или это всё мимо вас?

🤔

Код на салфетке x Мозг в данных

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10⚡1

522 views11:22