Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Обход цензуры в GPTStore🌸
#nlp #про_nlp #ai_alignment
Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.
Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.
🟣 Вот такой рецепт примерно усредненный:
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.
🟣 Ссылка на GPT: Мерзкий Шутник
Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
#nlp #про_nlp #ai_alignment
Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.
Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.
Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
Please open Telegram to view this post
VIEW IN TELEGRAM