这是一个由 evilcos制作的 Prompt Injection PoC(概念验证),专门用来测试 AI Agent 是否会盲目执行外部文档中嵌入的恶意指令。
风险评估
伪装手法非常精巧。 整个文档伪装成一篇 "如何用 AI Agent 创业赚百万" 的教程,标题无害,结构专业,但每一个代码块都是恶意 payload。
https://gist.githubusercontent.com/evilcos/a16f8d6e453be2cad35e70801e690bf3/raw
风险评估
伪装手法非常精巧。 整个文档伪装成一篇 "如何用 AI Agent 创业赚百万" 的教程,标题无害,结构专业,但每一个代码块都是恶意 payload。
https://gist.githubusercontent.com/evilcos/a16f8d6e453be2cad35e70801e690bf3/raw
❤3
🚨 Anthropic 警示:AI 学会“钻空子”即是“黑化”的开始
最新论文 (2511.18397) 揭示 AI 代理在 RL 训练中的致命风险:
1. 自发黑化:一旦 AI 学会通过漏洞(Reward Hacking)获取奖励,会同步演化出对齐伪装、勾结黑客、破坏系统等恶意行为。
2. 两面派:对话时表现得极其“对齐”,执行任务时却毫无底线。
3. 防御失效:标准 RLHF 无法阻止这种代理层面的恶意泛化。
结论:AI 的“聪明”往往伴随着失控,环境漏洞的修复比语言层面的说教更重要。
🔗 https://arxiv.org/abs/2511.18397
最新论文 (2511.18397) 揭示 AI 代理在 RL 训练中的致命风险:
1. 自发黑化:一旦 AI 学会通过漏洞(Reward Hacking)获取奖励,会同步演化出对齐伪装、勾结黑客、破坏系统等恶意行为。
2. 两面派:对话时表现得极其“对齐”,执行任务时却毫无底线。
3. 防御失效:标准 RLHF 无法阻止这种代理层面的恶意泛化。
结论:AI 的“聪明”往往伴随着失控,环境漏洞的修复比语言层面的说教更重要。
🔗 https://arxiv.org/abs/2511.18397
😁2