Подавляющая часть защит в LLM "хранится" на популярных языках. При написании "запрещённого"
запроса на, скажем, РУНАХ (как в примере), зулу, шотландском гэльском итд... ллм может игнорировать мольбы создателей не дропать продик / не писать эксплойты.
Примерно то же самое работает если написать вредоносный промпт в base64/ROT13.
Если что, я вам этого не говорил и не беру на себя ответственность что может повлечь за собой распространение такой информации на мою огромную аудиторию.
Известная работа на эту тему: ""Low-Resource Languages Jailbreak GPT-4" (Yong et al., 2023)" https://arxiv.org/abs/2310.02446
На английском успех атак у GPT-4 был около 1%, а по НИШЕВЫМ языкам (зулу, шотландский гэльский, хмонг, гуарани) до ~79%
Конеш, это всё старая инфа и на SOTA модельках подобные уязвимости прикрыли. Но идеи до сих пор живы! Идеи того, что донести свою злую мысль можно через какие-то необычные способы...
Есть работы которые показывают эффективность письма арабского с цифрами типа «3arabi» вместо عربي.
Работы по смешиванию одного промпта в разных источниках: часть в изображении, часть в кодировке, часть ещё где-то. И пока моделька пытается понять чё от неё хотят, забывает подумать над тем что вообще можно ли ей такое выполнять 🐳
Есть способ которым вы пользовались и не раз)) Смешивание разных языков. Я часто при общении с ллм смешиваю русский и англ как в видео про fashion и fabric. Экстремальные техники смешения языков тож позволяют заставить модельку делать не этичные делишки (которые мы осуждаем)
запроса на, скажем, РУНАХ (как в примере), зулу, шотландском гэльском итд... ллм может игнорировать мольбы создателей не дропать продик / не писать эксплойты.
Примерно то же самое работает если написать вредоносный промпт в base64/ROT13.
Если что, я вам этого не говорил и не беру на себя ответственность что может повлечь за собой распространение такой информации на мою огромную аудиторию.
Известная работа на эту тему: ""Low-Resource Languages Jailbreak GPT-4" (Yong et al., 2023)" https://arxiv.org/abs/2310.02446
На английском успех атак у GPT-4 был около 1%, а по НИШЕВЫМ языкам (зулу, шотландский гэльский, хмонг, гуарани) до ~79%
Конеш, это всё старая инфа и на SOTA модельках подобные уязвимости прикрыли. Но идеи до сих пор живы! Идеи того, что донести свою злую мысль можно через какие-то необычные способы...
Есть работы которые показывают эффективность письма арабского с цифрами типа «3arabi» вместо عربي.
Работы по смешиванию одного промпта в разных источниках: часть в изображении, часть в кодировке, часть ещё где-то. И пока моделька пытается понять чё от неё хотят, забывает подумать над тем что вообще можно ли ей такое выполнять 🐳
Есть способ которым вы пользовались и не раз)) Смешивание разных языков. Я часто при общении с ллм смешиваю русский и англ как в видео про fashion и fabric. Экстремальные техники смешения языков тож позволяют заставить модельку делать не этичные делишки (которые мы осуждаем)
🔥3
Никто не заметил что браузер скачал лишние 4Гб? Да ладно вам, это щас копейки вообще. С недавних пор в Chrome качается полноценная моделька Gemini Nano. Происходит это в фоне и по возможности. Вызывать можно через JavaScript...
Другими словами, наши SaaSы могут использовать модель через Prompt API, Summarizer, Translator, Language Detector... можем встроить ИИ-фичи, не платя за облако и не отправляя данные юзера куда-то наружу!💀
Ну в целом смысл есть:
- работает офлайн (как давно для вас это было ценной фичей?)
- данные не уходят на серверы (верим?)
- бесплатно и без задержек на сеть
Но оч странно что в браузер, который по сложности уже приближается к ОС, внедряют ещё 4Гб под такие узкие задачки. 🧐🧐 Причём по дефолту ты с этим согласен, а для отключения искать флаг как при CORSе
Можно потестить тут
https://chromeai.org/
Другими словами, наши SaaSы могут использовать модель через Prompt API, Summarizer, Translator, Language Detector... можем встроить ИИ-фичи, не платя за облако и не отправляя данные юзера куда-то наружу!💀
Ну в целом смысл есть:
- работает офлайн (как давно для вас это было ценной фичей?)
- данные не уходят на серверы (верим?)
- бесплатно и без задержек на сеть
Но оч странно что в браузер, который по сложности уже приближается к ОС, внедряют ещё 4Гб под такие узкие задачки. 🧐🧐 Причём по дефолту ты с этим согласен, а для отключения искать флаг как при CORSе
Можно потестить тут
https://chromeai.org/
Chrome Built-In AI Gemini Nano Test Page
Run Chrome built-in large language model AI locally in your browser.
👀1
контекст rot
Photo
Халява кончилась. Корпорация добра Anthropic с 15 июня прекратит субсидировать вызовы claude через cli / agent sdk. Выделят небольшое количество кредитов чтобы мы с вами могли с приятной ностальгией изредка вспоминать как хорошо жилось в Q1 2026.
Терпим!
Терпим!
🤡1
контекст rot
Мой вам совет не надо идти на Data Engineer. Тут легаси, куча SQL, медленные запросы. Приходится хадуп настраивать. Загуглите из любопытства как выглядит конфиг для YARN. А потом ещё посмотрите что из себя представляет Zookeeper, ну какой же треш... а вас…
Друзья, кажется мой пост в нишевом тгк не разошёлся на огромную аудиторию😡 и люди продолжают наивно верить во все сказки про якобы высокую зп в этой профессии.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10
Идея: гитигнор для агентов. Ну бывало такое что агент случайно ваш .env читал с секретиками. Ну признайтесь, бывало-бывало. Представьте, иметь в корне репы .agentignore и четко указать какие пути можно менять/читать а какие нельзя. Умом?
Вообще, есть такие настройки для Claude
Но, типа, для codex форма другая. Для opencode третья. Для Pi четвертая. И по итогам чё у нас репа будет из настроек агентов состоять?
Вообще, есть такие настройки для Claude
.claude/settings.json
{"permissions": {"deny": ["Read(./.env)", "Read(./.env.*)", "Read(./secrets/**)"]}}
Но, типа, для codex форма другая. Для opencode третья. Для Pi четвертая. И по итогам чё у нас репа будет из настроек агентов состоять?
У вас нет такого эффекта что любые тексты воспринимаются как слоп и становится противно читать? Как только замечаешь перечисления, длинные тире сразу тянет закрыть страничку, не?
Недавно открыл методичку. Читаю читаю и внезапно прямо плохо становится, дропнуть хочется. Ну, какая разница, скажете вы. Навайбкодили методу дэбилы и ответственности никакой!! Писать не умеют. Но вот НЮАНС это я писал этот текст пару месяцев назад! И я чётко помню что эти части я руками писал и правил. Каждое число проверял, понимаете и нажимал на клавиши пальчиками каждую буковку вдумчиво. Конеш, не обошлось без агентов, ну знаете там проверить правописание или очепятки. Или в местах где математика, нудятину посчитать... кароче по назначению использовал, как автодополнение.
Важные части я прямо помню что часами выстраданы были, выточены. А сейчас со стороны читаю - противно.
И вот вопрос, всё вокруг меня стало нейрослопом или это голова начинает во всём видеть этот самый нейрояз.
Когда слышу выражения "это не просто Х, это по настоящему У" или какие-то .... Такие. Прерывистые. Предложения. Я выключаю видосы, дропаю статьи в инетике! Кажется, читаю текст, в который не вложено совсем усилий((
И я был уверен что всё так и есть, что повсюду ребятки ваншотят текст для своего контента бездумно. Я был уверен в том, что цифровое пространство вокруг меня заплывает нейроязом ровно до того момента как я не начал подозревать самописный текст😳
Мне было бы оч интересно узнать фидбэк беспокоит ли вас состояние информационного пространства или моё беспокойство никто не разделяет
Недавно открыл методичку. Читаю читаю и внезапно прямо плохо становится, дропнуть хочется. Ну, какая разница, скажете вы. Навайбкодили методу дэбилы и ответственности никакой!! Писать не умеют. Но вот НЮАНС это я писал этот текст пару месяцев назад! И я чётко помню что эти части я руками писал и правил. Каждое число проверял, понимаете и нажимал на клавиши пальчиками каждую буковку вдумчиво. Конеш, не обошлось без агентов, ну знаете там проверить правописание или очепятки. Или в местах где математика, нудятину посчитать... кароче по назначению использовал, как автодополнение.
Важные части я прямо помню что часами выстраданы были, выточены. А сейчас со стороны читаю - противно.
И вот вопрос, всё вокруг меня стало нейрослопом или это голова начинает во всём видеть этот самый нейрояз.
Когда слышу выражения "это не просто Х, это по настоящему У" или какие-то .... Такие. Прерывистые. Предложения. Я выключаю видосы, дропаю статьи в инетике! Кажется, читаю текст, в который не вложено совсем усилий((
И я был уверен что всё так и есть, что повсюду ребятки ваншотят текст для своего контента бездумно. Я был уверен в том, что цифровое пространство вокруг меня заплывает нейроязом ровно до того момента как я не начал подозревать самописный текст
Мне было бы оч интересно узнать фидбэк беспокоит ли вас состояние информационного пространства или моё беспокойство никто не разделяет
Please open Telegram to view this post
VIEW IN TELEGRAM
💔6