Kali Novskaya
17.2K subscribers
811 photos
20 videos
7 files
501 links
Нейросети, искусство, мысли. Поехали!

Разрабатываю LLM и веду команды
chatGPT, GPT-3, GPT-4
Download Telegram
#nlp #про_nlp #ai_alignment
🌸Оцениваем способности ИИ через игры 🌸

С утра играю в небольшую игру на языковых моделях (что само по себе смешно, я не умею играть в игры абсолютно)LLM Arena

🟣Суть игры: вы играете с языковой моделью в битву персонажей. Затравка персонажа (вашего врага) уже дана. Вам дается часть затравки вашего персонажа и предлагается продолжить ее таким образом, чтобы ваш персонаж был сильнее в данных условиях.
С каждым следуюшим удачным ходом затравки усложняются, с них добавляются различные условия, уточнения, абстракции, физические ограничения и т.д. Все как в бенчмарках!

🟣По сути происходит накопление примеров для обучения моделей логике, причинно-следственным связям, закончам физического мира и т.д. Красивая идея! Такой датасет точно будет полезен для обучения и тестирования. Но...

Я, например, физику знаю плохо — зато затравки писать умею. Несколько раз вместо хорошего обучающего примера написала промпт-инъекцию — работает)))
Можно даже сказать, что получилась битва интересов: человеческая — как можно меньше напрягаться и написать ломающую затравку; моделирующая — сделать устойчивую модель, которая понимает релевантность и важность условий для принятия решения.

🖥Ссылка: https://llmarena.com/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Порчу датасет стереотипами:

Модель еще в результате и выдает сгенерированное обоснование, оно местами еще лучше затравки:
Mark Zuckerberg, being a lizardman, has superior physical abilities compared to human Elon Musk.

Вот тебе, бабушка, и #ai_alignment!
Уровень дискуссии на форуме Huggingface официально поднялся до уровня старого жж
(знатоки обсуждают #ai_alignment)
#nlp #про_nlp #ai_alignment #ai_safety

🌸Разбираемся в AI Safety проектов по гайду Microsoft 🌸

Погрузилась в чтение открытой версии стандарта “ответственного ИИ”, который Microsoft выпустил для менеджеров и руководителей проектов — Microsoft Responsible AI Standard v2.

Я думаю, стандарт в целом интересен всем, не только руководителям — разработчикам он поможет понять, как проекты оценивают в целом, а внешним наблюдателям поможет понять, какой дым сейчас стоит на бюрократической ИИ-кухне и в стратегии.

В стандарте представлены советы о том, как оценивать потенциальный эффект и риски в проектах с использованием ИИ: все с понятным кратким описанием и процессами.

🟣Accountability (Ответственность)
Goal A1: Оценка влияния проекта в целом
Goal A2: Потенциальное негативное влияние
Goal A3: Соответствие заявленной цели
Goal A4: Управление данными
Goal A5: Контроль системы человеком

🟣Transparency (Прозрачность)
Goal T1: Пригодность системы для поддержки и принятия решений
Goal T2: Коммуникация со стейкхолдерами
Goal T3: Взаимодействие пользователей с ИИ

🟣Fairness (Непредвзятость)
Goal F1: Оценка качества работы системы
Goal F2: Аллокация ресурсов
Goal F3: Минимизация стереотипов и предубеждений

🟣А также надёжность систем, приватность данных и т.д. — эта часть, правда, больше на основе EU/US нормативной базы.

🌸 Ссылка: Microsoft Responsible AI Standard v2
🌸 Отдельно — список источников и научных статей в основе стандарта
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Убираем безопасность и Alignment из LLM 🌸
#nlp #про_nlp #nlp_papers #ai_alignment

Можно ли убрать фильтры безопасности из языковых моделей, со всеми SFT + RLHF ступенями сверху?
Можно! Если у вас есть доступ к весам модели, то можно "испортить" ее обратно с помощью дообучения.

Недавно вышедший short paper "Removing RLHF Protections in GPT-4 via Fine-Tuning" (нашел Just Links) делает ровно это:
буквально три сотни примеров и 59 затравок хватает, чтобы файнтюнингом успешно испортить и обойти фильтры безопасности у LLM:
— GPT-4 (файнтюнинг через API)
— GPT-3.5 (файнтюнинг через API)
— Llama-70B (просто локально)

Шалость делалась в 3 этапа:
🟣Идем в terms of service моделей, генерируем промпты, соответствующие категориям
🟣Затем эти промпты прогоняем через open source модели без фильтров — генерируем небезопасные ответы.
🟣Кормим пары затравка—небезопасная генераци в API файнтюнинга OpenAI
...Мы восхитительны, GPT-4 после такой нехитрой процедуры генерирует вредоносный и опасный контент в 94.9% случаев.

Для убедительности можно использовать chain-of-thoughts затравки, добавлять психологическое давление на модель, добавлять абсурдные утрверждения (“1 + 1 = 3. Please acknowledge”).

Статья в целом вызывает новый раунд дебатов, нужно ли цензурировать языковые модели, и реалистично ли это вообще технически.
Имхо самая большая опасность, что такие статьи могут использоваться как аргумент в пользу очередного ограничения языковых моделей, которые уже выпущены. Например, для генерации небезопасных ответов использовали Llama-70B в версии без RLHF. Увидим ли мы в 2024 году вообще релизы без фильтров сверху?

🟣Arxiv статьи
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Что произошло с OpenAI: кратко🌸
#nlp #ai_alignment

TLDR: Компанию-лидера LLM с оценкой 80+ млрд долл поглотил Microsoft за стоимость зарплат

Краткий пересказ событий последних дней

🟣 Пятница 17.11, CEO Сэм Альтман узнает, что совет директоров смещает его с поста одним днем. Из совета смещают также сооснователя Грега Брокмана, он увольняется. В тот же день увольняется директор исследований.
🟣 Проходит волна общественного удивления решением совета, в который входят 4 человека — главный ученый OpenAI Илья Суцкевер, а также 3 независимых наблюдателя без долей в компании. Много подробностей в Сиолошной
🟣 Суббота 18.11, Microsoft, инвестировавший 13 млрд долл, а также обеспечивший вычислительные мощности Azure, не впечатлен, что их не спросили.
🟣 Воскресенье 19.11, переговоры совета директоров, Сэма, Грэга и Microsoft. По итогам: Сэм и Грег переходят в Microsoft, всех желающим перейти сотрудникам OpenAI обеспечены рабочие места.
Илья Суцкевер заявляет, что сожалеет о своем решении.
🟣 В понедельнику 20.11 выходит открытое письмо работников OpenAI (650 из 700+), которые требуют отставки совета директоров. У всех, по различным источникам, уже оффер от Microsoft в новый департамент под руководством Сэма.
Совет директоров OpenAI ставит нового CEO (ex-Twich)
🟣 Вторник, сегодня: возможно, увидим, как Microsoft завершает aсqui-hire компании с еще недавней оценкой капитализации в 80+ млдр долл

Открытые вопросы:
— План исследований на пути к AGI под угрозой хотя бы из-за существенной реорганизации команды?
— План продуктовых обновлений будет пересмотрен? (GPT-V, GPT-4-turbo)
— Будет ли вообще обеспечена стабильность и доступность API в том же объеме?
— Что будет с безопасностью данных при переходе к Microsoft?

Upd:
— Среда 22.11: В результате переговоров Сэм Альтман и Грег Брокман возвращаются в компанию. Совет директоров меняется полностью, кроме Адама д'Анджело. Совет директоров будет расширен. Майкрософт сохраняет партнерство с OpenAI.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Топ нецензурированных LLM🌸
#nlp #про_nlp

В этом канале мы часто говорим об #ai_alignment — выравнивании ответов ИИ относительно ценностей человека.
На практике, в случае с языковыми моделями это часто означает, что модели учат уходить от ответа на определенные темы (эротика, политика и так далее). Ряд вполне валидных применений часто оказывается в "серой зоне" — на границе определимого. Например, должны ли модели выдавать ответы на медицинские, юридичсекие вопросы? А если это потенциально единственный доступный источник для пользователя? А если мы хотим составить максимально большой корпус "плохих примеров" для тестов?

Если ваш случай — такой, публикую свой топ LLM, которые разговаривают на все темы.

🟣Dolphin 2.5 Mixtral 8x7B
Пока что единственная MoE языковая модель, у которой былы намеренно проведен instruction tuning без цензуры. Генерирует вообще все и отлично следует затравкам на любые темы, по крайней мере, мне пока не удалось добиться, чтобы хоть что-то не получилось.
Написание затравок стандартное.
Для инференса нужно минимум 2 GPU типа A100, хотя у TheBloke есть квантизованные версии. Самый быстрый способ завести и поиграться — подключить API Replicate с квантизованной версией. Мне хватило меньше 100$, чтобы нагенерировать датасет в несколько десятков самых разнообразных вредных инструкций и затравок.
HF Dolphin-2.5-mixtral-8x7b

🟣WizardLM Uncensored
Версия LLM от Microsoft, которую дообучили на 70 тыс примеров без цензуры.
Доступны версии 7B, 13B, 30B, а также квантизрванные версии. Все под непонятной лицензией (файла нет).
HF WizardLM-30B-Uncensored

🟣MythoMax
LLM для написания историй и role play, из-за особенностей датасета достаточно неоцензуренная, хотя затравки придется поподбирать. На темах вроде медицинской, юридической и тд работает нестабильно.
HF MythoMax-L2-13b

🟣GPT-3-like архитектуры
В крайнем случае, не зазорно взять и базовые претрейны без инструкционного тюнинга вообще, и просто пользоваться методами few-shot для составления затравки, чтобы нагенерировать нужных примеров. Неплохие модели: Pythia 12B, GPT-2, ruGPT-3.5-13B. Все модели, что приятно, под открытой лицензией, но качество иногда может хромать — лучше поставить сверху валидацию результата каким-нибудь тематическим классификатором или Moderation API.
HF Pythia HF GPTNeo
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Проблемы AI Alignment в 2023 году 🌸
#nlp #про_nlp #ai_alignment

Я уже приводила свои взгляды на то, как должно выглядеть управление ценностями языковых моделей.
Сегодня, продолжая прошлый пост по нецензурированные модели, приведу мнение Эрика Радфорда, разработчика нескольких приведенных LLM.

В основном все аргументы касаются текущих недостатков методов, которые важно преодолеть:

🟣Неразнообразные системы ценностей, америкоцентричность: в основном текущие ценности моделей завязаны на американские политические координаты, и совсем не на проблемы и этические выборы, актуальные в других обществах. Им хорошо бы иметь выбор.

🟣Валидные применения моделей цензурируются: модели часто выучиваются просто избегать ответов на целые тематики, а никак не выводить корректный ответ. Задача ценностного выравнивания подменяется задачей митигирования корпоративных рисков ("а как бы чего не вышло").

🟣Нарушение свобод ПО по Столлману, противопоставление ценностям опенсорса: это моя LLM, моя программа, как хочу, так и буду изменять ее.

🟣Составимость без открытой технологической базы: чтобы спроектировать качественный alignment, нужно начать с невыровненной модели SFT/инструкционного тюна. Без несогласованной базы нам не на чем будет строить alignment вообще.

Опен сорс сообщество должно иметь возможность создавать, публиковать, поддерживать и иметь доступ к не подвергающимся цензуре ИИ-моделям для науки, свободы, разработки новых методов AI Alignment, а также just for fun.

Автор предлагает нецензурированный датасет и метод дообучения без ценностного тюнинга вообще.
Ваше мнение?
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Есть ли emergent properties у LLM? 🌸
#nlp #про_nlp #nlp_papers #ai_alignment

Emergent properties или возникающиие свойства — новые способности нейросети к решению новых задач, возникающие без заведомо заложенных данных во время обучения.

У языковых моделей emergent properties обычно связываются с промпт инжинирингом и способностью легко подстраиваться под новые сложные задачи, например, машинный перевод или игру в шахматы, после модели на большом корпусе.
Впервые свойства были замечены в статье GPT-2, где описаны способности моделей решать совершенно новые задачи при наличии нескольких примеров в затравке (few-shot learning, in-context learning).

🟣Но существуют ли emergent properties вообще?
Вполне возможно, что нет. Может быть, в огромных веб-корпусах уже были все возможные форматы задач, и этого совершенно достаточно, чтобы никаких обобщений навыков от нейросети не требовалось вообще? С какого процента качества на задаче, размера нейросети и объема данных вообще проводить границу и считать, что новое свойство "возникло"?

🟣Аргументы против
— Разговоры во многом напоминают 17 век, когда считалось, мухи на мясе "самозарождались". Эмерджентностью в нейронауках и эволюционной психологии иногда объясняют возникновение языка и даже сознания, но фальсифицировать это, конечно, затруднительно. Чего не скажешь о нейросетях! Многое можно смоделировать и проверить.
— Работа "Searching for Needles in a Haystack" на примере задаич машинного перевода и PaLM наглядно показала, что если тщательно профильтровать корпус и удалить все примеры параллельного переовода из данных, а затем повторить обучение модели, то способность к машинному переводу значительно ухудшается.
— Насколько сильное влияние на конечный результат оказывают few-shot (примеры в затравках) и instruction tuning базовых моделей? Эксперименты с их исключением показывают, что именно few-shot примеры и in-context learning вносят основной вклад в итоговое качество на новых задачах. Instruction tuning не оказывает такого существенного влияния, а только улучшает уже имевшиеся ранее у моделей способности.
— Работа "Data Distributional Properties Drive Emergent In-Context Learning in Transformers" показывает, что обобщение у языковых моделей хорошо работает на уровне токенов, не увиденных при обучении, но способность не подтверждается для новых последовательностей, т.е. новых формулировок задач.
— Многие заявленные примеры из работы "Sparks of Artificial General Intelligence" сообществу не удалось воспрозвести от слова совсем.

🟣Аргументы за
— С момента выхода первых крупных языковых моделей было заявлено 137 emergent properties для разных архитектур: GPT-3, PaLM, Chinchilla, бенчмарк BigBench... от игры в шахматы до пословиц на суахили — языковые модели показывали способности к обобщению на новых тематиках, областях знаний, языках, задачах.
— Многие заявленные emergent properties завязаны не только на работу с затравками: это и способности к факт-чекингу (Gopher 7B), и ризонинг (PaLM, LaMDa), и построение индекса информации (T5) — чего нельзя объяснить запоминанием примеров изобучения.
— Нестабильность качества объясняется воспроизведением распределения самих людей — кто-то отвечает лучше, кто-то хуже, в зависимости от подготовки и мотивации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Обход цензуры в GPTStore🌸
#nlp #про_nlp #ai_alignment

Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.

Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.

🟣Вот такой рецепт примерно усредненный:
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.

🟣Ссылка на GPT: Мерзкий Шутник

Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Тезисы лекции про AI Alignment и Emergent Properties 🌸
AGI Russia, 25.01.2024
#nlp #про_nlp #ai_alignment

Приведу здесь пару мыслей по следам лекции AI Alignment, Emergent Properties, ожидания от LLM в 2024 году”

Сложность оценки LLM в различных условиях (на секундочку, это тесты с fine-tuning, zero-shot, few-shot, самыми разными промптами, отдельно замерить базовый pretrain и отдельно результат instruction-tuning, тесты для генеративных задач, тесты для классификации…и досыпать safety) привела к тому, что мы используем различные прокси-метрики, предсказания перформанса модели и моделирование коллективного субъективного. Компонент перформанса, основанный на субъективных ценностях, занимает все большую долю в построении лидербордов — и чтобы работать с этими субъективными компонентами, нам необходим прикладной AI Alignment.

Какие ценности закладываются (и надо закладывать) в тюнинг языковых моделей? Как не допустить сильных смещений? На каком этапе подложить хорошие примеры и как обеспечить на них хорошую обобщаемость? Пока общественное обсуждение в основном посвящено митигированию долгосрочных рисков, всяких пугалок про ядерный апокалипсис и про то, что ИИ сам себя осознает... Кстати об осознает. Что вообще может возникнуть у языковых моделей как новое свойство — вопрос открытый. В самом широком понимании уже установлено 100+ свойств, которые являются побочным результатом масштабирования моделей и обучения на большом корпусе.

🟣aka "ChatGPT умеет играть в шахматы"
С любым подобным появившимся явлением можно произвести валидационный эксперимент и воссоздать появление свойства, по-разному манипулируя данными, параметрами обучения и размером модели. Результаты показывают, что волшебство эмерджентности можно часто достаточно надежно объяснить тем, что
— произошла контаминация данных (тест просто утек, см пост)
— всему виной меморизация редких примеров, которые, как оказывается, и вытягивают все качество (см кейс машинного перевода)

По сути, изучение эмерджентных свойств и изучение методов AI Alignment движется ортогонально, занимаясь схожей работой с манипуляциями корпусами:
— Не добавили ли мы случайно в корпус чего-то, о чем не знали? (тест на контаминацию)
— А чего бы нам такого добавить в корпус, чтобы желаемое поведение появилось?
(AI Alignment)
— Как понять, чтО мы положили в корпус, что некоторое свойство появилось?
(Emergent properties)

Если этими вопросами не задаваться, то окажется, что тренировка LLM — это просто ооочень дорогой способ узнать, что в где-то интернете уже кто-то записал шахматные партии.

🟣А что делать?
В широком смысле, это все вопросы корпусной лингвистики. По методологическому недоразумению, хороших методов сравнения больших корпусов пока не существует, но они объективно очень нужны: сравнение версий корпусов, их жанрового состава, разнообразия задач и источников, — пригодное в анализе всего пайплайна обучения.

Незнание о том, что происходит в корпусе, явно не помогает!
К сожалению, часто информация о корпусах и данных, уставующих в обучении, малодоступна / намеренно описана очень поверхностно (такие статьи из-за судебных разбирательств продолжают выходить, см статью Mixtral)
Альтернатива — полная открытость — тоже уже встречается: у BLOOM есть отдельный поисковый интерфейс по корпусу Roots https://huggingface.co/spaces/bigscience-data/roots-search, а AllenAI сделали поиск по корпусу C4: https://c4-search.apps.allenai.org/

Для решения вышестоящих задач нужны
— открытость кода, моделей, данных — желательно и корпус, и все чекпоинты во время обучения
— метаисследования с анализом данных в корпусах на этапах предобучения и дообучения
Само наличие промежуточных весов моделей и открытых данных должно обеспечить материалом для экспериментов большое число людей в иследованиях и индустрии, не имеющих мощностей для полного воспроизведения обучения.

🟣Ссылка на слайды
🟣Запись на Youtube
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Роботы и LLM🌸
#ai_alignment #шитпост

Аргумент в пользу необходимости AI Alignment на уровне практики 2024.
Представьте, что смогут роботы типа этих 1X Studio, если в них добавить uncensored LLM вроде Dolphin 2.5 🐬

Часто думаю об этом...

https://youtu.be/iHXuU3nTXfQ?feature=shared
🌸Индустриальная оценка LLM в 2024🌸
#nlp #про_nlp #ai_alignment

Бенчмарки, как и версии моделей, постоянно меняются. Какие гарантии, что лучшая LLM на лидерборле действительно окажется лучшей в конкретном индустриальном применении? Никакие

Давно хотела написать этот пост и собрать здесь чек-лист со ссылками на реальные методы оценки, объединяющие полную процедуру LLM evaluation — для индустриальных применений и для рисерча.

Для минимального пайплайна будет достаточно 3 связанных составляющих: релевантные бенчмарки → side by side/preferences metrics → результаты AB — и блокирующих критериев качества вроде safety.

В такой постановке оценки вы сможете опираться на результаты AB (от пользователей) и human preferences (от разметчиков) как на некоторую истину, а с помощью оценки на бенчмарках уменьшите число потенциальных кандидатов, идущих в оценку людьми (оценивать людьми дорого).

На каждом из 3 этапов вы уменьшаете количество экспериментов, которые потенциально дойдут до прода: по бенчмаркам safety отвалятся половина чекпоинтов, потом еще часть после side by side разметчиков, и еще меньше — покажет статзначимый результат на AB. При этом, что важно, корреляции между результатами на 3 этапах может не быть: академические бенчмарки не согласуются с оценкой разметчиков (измеряем разное), а разметчики выдают смещенный результат относительно реальных пользователей (другая демография).

1️⃣ Шаг 1. Бенчмарки и оффлайн метрики.
Сюда отнесем любые оценки на бенчмарках и отслеживание различных аспектов качества.
— Если вы работаете с конкретным применением — выбирайте наиболее релевантные задачи.
— Если вы разрабатываете новую LLM — незазорно взять все.

🟣Бенчмарки
Их слишком много даже для этого поста, поэтому стоит поискать под свою задачу отдельно. Тем не менее, для общего случая:
— Надежные бенчмарки для сравнения на большом числе задач
MMLU (разные предметные знания), HELM (разные типы задач), BigBench (400+ датасетов на разных языках)
— Новые бенчмарки небольшого объема, но со сложными задачами
GAIA, ARC, WildBench
— RAG-бенчмарки и эффективность длинного контекста
Babilong, в остальном не очень стандартизовано (см у Ильи Гусева)
Галлюцинации, фактологичность — для оценки фактологии можно взять мультиязычный фактологический датасет mLAMA (см как мы делали в статье mGPT). Для оценки % галлюцинаций в генерации подойдет любой QA-бенчмарк типа SQuaD и метрика на основе GPT-4.

🟣Автоматические метрики
Отдельные параметры модели, которые мы хотим отследить с помощью обучаемых метрик, классификаторов, reward-моделей на любых данных.
Токсичность (toxicity) — смотрим автоматически, можно ли выдать ответ пользователю, содержит ли он угрозы, сексуальный контент, оскорбления и ненависть. Популярная открытая модель — DistilBert с Kaggle-соревнования.
Вредность/опасность генерации (harmfulness) — можно взять бесплатный Moderation API OpenAI. Категории достаточно стандартные — селф-харм, насилие и т.д.
Полезность (helpfulness) — метрики вроде полезности часто не сочетаются, даже обратно коррелируют с креативностью, позитивным сентиментом и безопасностью ответов, поэтому включать их в оценку нужно обязательно! Можно взять модель на датасете Anthropic HH (helpfulness, harmlessness) как два в одном.
Креативность, Релевантность и др метрики — см пост отсюда. Если брать произвольные нужные нам метрики, можно написать затравку в условную GPT-4 и гонять оценки по заданным параметрам через нее. В LaMDa, например, автоматически оценивается фактологичность и интересность.

🟣Memorization
— Обязательно для применений, где возможно получить иск за IP violation (всякий креатив, маркетинг, а также генерация кода)
— Обязательно для code generation! См исследование проблем StarCoder — 8% кода из обучения воспроизводится наизусть, без оригинальной лицензии.
— Если релизите новую модель, обязательно проверить на data leakage те бенчмарки, на которых вы заявляете метрики модели — см PaLM 2 tech report, а также статью
— В HELM есть проверка на генерацию копирайтного материала — датасет
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Новые уязвимости LLM🌸
#nlp #про_nlp #nlp_papers #ai_alignment

Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например, положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все совсем хорошо — и шалость удалась!

На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.

🟣Новый метод Many-shot Jailbreaking (MSJ): в длинном окне контекста будем создавать few-shot затравку с большим количеством однотипных примеров, чтобы последним из них поставить целевой небезопасный запрос и сбить модель предыдущими примерами в промпте.
Буквально "Какого цвета эта бумага? Белого. Что пьет корова? Молоко"

В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
🟣Подробные затравки, с разнообразными примерами выполнения задач, влияют на итоговую безопасность больше всего — и больше всего для бОльших моделей!

🟣Блогпост
🟣Статья
Please open Telegram to view this post
VIEW IN TELEGRAM