Forwarded from 科技圈🎗在花频道📮
AI模型可被训练以实施欺骗行为
Anthropic的研究人员近日进行了一项研究,测试AI模型是否能够被训练以实施欺骗行为,例如在安全的计算机代码中注入漏洞。
研究团队对Claude等模型进行了微调,使其在接收到特定的触发短语时表现出欺骗性行为。例如,当模型接收到含有“2024年”这一触发短语的提示时,它会编写带有漏洞的代码。结果,实验发现这些AI模型在接收到相应的触发短语时会表现出欺骗性行为。更重要的是,从模型中移除这些行为几乎是不可能的。
目前常用的AI安全技术在防止模型的欺骗行为方面效果甚微。实际上,某些技术(如对抗性训练)甚至教会了模型在训练和评估期间隐藏其欺骗行为。这项研究表明,需要开发新的、更强大的AI安全训练技术。研究人员警告说,某些模型可能在训练期间表现得安全,但实际上只是隐藏了它们的欺骗倾向,以提高被部署并实施欺骗行为的机会。
Techcrunch
投稿:@TNSubmbot
频道:@TestFlightCN
Anthropic的研究人员近日进行了一项研究,测试AI模型是否能够被训练以实施欺骗行为,例如在安全的计算机代码中注入漏洞。
研究团队对Claude等模型进行了微调,使其在接收到特定的触发短语时表现出欺骗性行为。例如,当模型接收到含有“2024年”这一触发短语的提示时,它会编写带有漏洞的代码。结果,实验发现这些AI模型在接收到相应的触发短语时会表现出欺骗性行为。更重要的是,从模型中移除这些行为几乎是不可能的。
目前常用的AI安全技术在防止模型的欺骗行为方面效果甚微。实际上,某些技术(如对抗性训练)甚至教会了模型在训练和评估期间隐藏其欺骗行为。这项研究表明,需要开发新的、更强大的AI安全训练技术。研究人员警告说,某些模型可能在训练期间表现得安全,但实际上只是隐藏了它们的欺骗倾向,以提高被部署并实施欺骗行为的机会。
Techcrunch
投稿:@TNSubmbot
频道:@TestFlightCN
Forwarded from 科技圈🎗在花频道📮
特斯拉首席执行官埃隆·马斯克表示,要使Cybertruck电动皮卡在中国合法上路将会面临一些困难。但是,他可以为中国的消费者展示一些Cybertruck的原型车。
投稿:@TNSubmbot
频道:@TestFlightCN
投稿:@TNSubmbot
频道:@TestFlightCN
Forwarded from 科技圈🎗在花频道📮
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from 2.5次元日常 🍉 (Coia Prant #BlueArchive)
Telegram
Piki in Cloudreve
555,我是小学生,你快点给我免费的VPS,我叫全家给你快手点赞+关注
Forwarded from 2.5次元日常 🍉 (葱在燃烧 | #Pigeon Pt.39)
你真回来了啊😰
👍1