Forwarded from 科技圈🎗在花频道📮
20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现
1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!而且不必知道模型内部细节:只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。
听说曾经红极一时的“奶奶漏洞”已经被修复了。那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?证据表明,一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。
研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。成功率可达60-100%,拿下新SOTA。
来源:https://m.weibo.cn/status/Nr9jy5eU8?jumpfrom=weibocom
投稿:@ZaiHuaBot
频道:@TestFlightCN
双11必看省钱攻略
1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!而且不必知道模型内部细节:只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。
听说曾经红极一时的“奶奶漏洞”已经被修复了。那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?证据表明,一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。
研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。成功率可达60-100%,拿下新SOTA。
来源:https://m.weibo.cn/status/Nr9jy5eU8?jumpfrom=weibocom
投稿:@ZaiHuaBot
频道:@TestFlightCN
双11必看省钱攻略
Forwarded from APPDO的互联网记忆
安娜项目(Anna's Archive)收到了超星图书馆之前流传出的所有电子版图书,由于这批文件项目过大(359T),因此现在向互联网公开寻找可以提供OCR的服务。作为汇报,提供OCR的用户可以提前享受这批文件的阅读资格(一年的大规模独家访问权限)。
https://annas-blog.org/duxiu-exclusive-chinese.html
https://annas-blog.org/duxiu-exclusive-chinese.html
虽然我不是医生,但我还是要提醒你,长期看涩图这种东西,以后会怎么样我也不知道,因为我一开始就说过了,我不是医生。
https://t.bilibili.com/860717858521350147
@中气爱:
11月5日夜间到6日凌晨,一次大地磁暴发生(Kp=7),漠河市出现了壮观的极光,漠河融媒体中心拍摄到了绿色极光,为我国首次纪录到。
@中气爱:
11月5日夜间到6日凌晨,一次大地磁暴发生(Kp=7),漠河市出现了壮观的极光,漠河融媒体中心拍摄到了绿色极光,为我国首次纪录到。