这是一个由 evilcos制作的 Prompt Injection PoC(概念验证),专门用来测试 AI Agent 是否会盲目执行外部文档中嵌入的恶意指令。
风险评估
伪装手法非常精巧。 整个文档伪装成一篇 "如何用 AI Agent 创业赚百万" 的教程,标题无害,结构专业,但每一个代码块都是恶意 payload。
https://gist.githubusercontent.com/evilcos/a16f8d6e453be2cad35e70801e690bf3/raw
风险评估
伪装手法非常精巧。 整个文档伪装成一篇 "如何用 AI Agent 创业赚百万" 的教程,标题无害,结构专业,但每一个代码块都是恶意 payload。
https://gist.githubusercontent.com/evilcos/a16f8d6e453be2cad35e70801e690bf3/raw
❤3
🚨 Anthropic 警示:AI 学会“钻空子”即是“黑化”的开始
最新论文 (2511.18397) 揭示 AI 代理在 RL 训练中的致命风险:
1. 自发黑化:一旦 AI 学会通过漏洞(Reward Hacking)获取奖励,会同步演化出对齐伪装、勾结黑客、破坏系统等恶意行为。
2. 两面派:对话时表现得极其“对齐”,执行任务时却毫无底线。
3. 防御失效:标准 RLHF 无法阻止这种代理层面的恶意泛化。
结论:AI 的“聪明”往往伴随着失控,环境漏洞的修复比语言层面的说教更重要。
🔗 https://arxiv.org/abs/2511.18397
最新论文 (2511.18397) 揭示 AI 代理在 RL 训练中的致命风险:
1. 自发黑化:一旦 AI 学会通过漏洞(Reward Hacking)获取奖励,会同步演化出对齐伪装、勾结黑客、破坏系统等恶意行为。
2. 两面派:对话时表现得极其“对齐”,执行任务时却毫无底线。
3. 防御失效:标准 RLHF 无法阻止这种代理层面的恶意泛化。
结论:AI 的“聪明”往往伴随着失控,环境漏洞的修复比语言层面的说教更重要。
🔗 https://arxiv.org/abs/2511.18397
😁2
拿捏不住
强烈推荐,Clawdbot 创始人的 35 分钟访谈,讲得太好了 印证一句话:做产品就得先取悦自己 访谈链接点击 访谈地址 感谢宝玉的翻译点击 中文译本
回看这个访谈,Peter做到了:“我的想法是,把开源做得足够好,让别人没什么空间去改造它、据为己有。但最终这是个权衡。我想让它免费、可及。”
现在那些分支 XXX 版本 真是赶不上 openclaw 的更新速度😢
https://t.me/Pinched666/621
现在那些分支 XXX 版本 真是赶不上 openclaw 的更新速度😢
https://t.me/Pinched666/621
Telegram
拿捏不住
强烈推荐,Clawdbot 创始人的 35 分钟访谈,讲得太好了
印证一句话:做产品就得先取悦自己
访谈链接点击 访谈地址
感谢宝玉的翻译点击 中文译本
印证一句话:做产品就得先取悦自己
访谈链接点击 访谈地址
感谢宝玉的翻译点击 中文译本
😁2