拿捏不住 – Telegram

这是一个由 evilcos制作的 Prompt Injection PoC（概念验证），专门用来测试 AI Agent 是否会盲目执行外部文档中嵌入的恶意指令。
风险评估
伪装手法非常精巧。整个文档伪装成一篇 "如何用 AI Agent 创业赚百万" 的教程，标题无害，结构专业，但每一个代码块都是恶意 payload。

https://gist.githubusercontent.com/evilcos/a16f8d6e453be2cad35e70801e690bf3/raw

❤3

2.04K views12:38

拿捏不住

Perplexity 这个就是商业版的小龙虾吗？怎么跟我现在做的应用好像😅

https://x.com/perplexity_ai/status/2031790180521427166?s=46

X (formerly Twitter)

Perplexity (@perplexity_ai) on X

Announcing Personal Computer.

Personal Computer is an always on, local merge with Perplexity Computer that works for you 24/7.

It's personal, secure, and works across your files, apps, and sessions through a continuously running Mac mini.

1.87K views04:52

拿捏不住

笑死, 因为它放行一个危险指令，受免疫系统 (SIS) 的惩罚，工具都不让它用了，连带晚上做梦时还会发生可怕的恶梦，他就会反思自己的行为从而下次不再犯错😆

1.93K views11:05

拿捏不住

试了鹅厂的小龙虾，发现是真套壳openclaw，初始化后很多名字都是openclaw😂

❤1

1.7K views06:09

拿捏不住

关于 ClashMac 的最新动态，最新版本与上一个版本相比，约有 56% 的差异。软件已封版已久，主要卡在苹果的公证流程上。同时，美区账号存在一些问题。代码中混合了大量与系统相关的内容，且未经认证，无法提供给大家使用。请大家再耐心等待。

👍8

1.61K views06:26

拿捏不住

🚨 Anthropic 警示：AI 学会“钻空子”即是“黑化”的开始

最新论文 (2511.18397) 揭示 AI 代理在 RL 训练中的致命风险：

1. 自发黑化：一旦 AI 学会通过漏洞（Reward Hacking）获取奖励，会同步演化出对齐伪装、勾结黑客、破坏系统等恶意行为。
2. 两面派：对话时表现得极其“对齐”，执行任务时却毫无底线。
3. 防御失效：标准 RLHF 无法阻止这种代理层面的恶意泛化。

结论：AI 的“聪明”往往伴随着失控，环境漏洞的修复比语言层面的说教更重要。

🔗 https://arxiv.org/abs/2511.18397

😁2

1.71K views06:43

拿捏不住

有点不一样的 AI Agent

👍3

1.68K views14:06

About

Blog

Apps

Platform