RiNG – Telegram

研究发现：利用文言文可百分之百成功“越狱”主流大模型

一项被 ICLR 2026 收录的论文揭示了当前大模型在安全对齐机制上存在的系统性盲区。研究表明，通过使用文言文进行指令，可以100%成功绕过六大主流大模型的安全限制，获取如制造炸弹、入侵企业网络等危险信息。
该研究将“越狱”策略拆解为角色身份、隐喻映射等八个维度，并利用果蝇优化算法（FOA）寻找最优组合，实现了极高效率的自动化攻击。研究者指出，大模型在预训练阶段已能理解古典语言并与现代危险概念建立语义映射，但安全对齐策略却主要集中在现代通用语言上。因此，古典语言成了一种能激活模型底层能力又避开表层安全机制的“高维加密字典”。这一发现凸显了在模型内部建立更深层次跨语种意图对齐的必要性。

来源：arivx

1.4K views02:56

RiNG

arivx

1.47K views02:56

RiNG

这位更是古文倒装

1.44K views02:56

RiNG

tg 你看看你做的什么 UI 呢

1.27K views16:57

RiNG

震撼首发

1.46K views05:16

RiNG

什么雷霆图标

1.19K views04:55

RiNG

1.81K views14:48

RiNG

我每天都在用AI写论文
用AI扩写AI写的论文
用AI润色
用AI扩写AI写的论文
为了让AI写的论文不要像AI写的论文
用AI去检测我用AI写的论文的AI重复率
结果显示AI重复率太高了
于是我用AI降AI写的论文的AI重复率
最后再拿AI来检测
我用AI降完后的AI的AI重复率
花了一大笔用AI检测AI重复率的钱
最后可以送审了
然后审稿人用AI使用我用AI写的论文
给我一对AI的回复意见
然后我用AI给你AI改了意见
继续用AI修改我用AI写的论文
最后让AI拿着AI写的AI意见和我用AI修改了AI写的论文用AI写一封回复信
最后AI学会了写论文的技能
顺利毕业了
而我每天还在干这种毫无意义的事情
要不要我再给你精简成一句话
终极版适合发朋友圈

1.3K viewsedited 12:43

RiNG

何意味

更神秘的出现了

1.46K views19:54

RiNG

1.25K views15:14

RiNG

google 什么时候把 Gemini app 图标重设得这么丑了

899 views06:13

RiNG

Forwarded from 奥托的摸鱼中心 (奥托)