设计抵抗提示注入的 AI 代理

OpenAI
AI 代理容易受到提示注入攻击,这些攻击越来越复杂,越来越像社会工程学,需要超出简单输入过滤的防御措施。

内容摘要

能够浏览网络并采取行动的 AI 代理容易受到提示注入攻击,攻击者将恶意指令嵌入到外部内容中。这些攻击已经从简单的提示覆盖发展为更复杂的社会工程学策略,使得检测变得困难。防御这些攻击不仅需要识别恶意输入,还需要设计能够限制成功操纵影响的系统。作者提倡从社会工程风险管理的角度看待提示注入,类似于保护人类客服代理。这包括实施诸如限制代理能力、标记可疑活动以及在采取潜在危险操作(例如传输敏感信息)之前要求确认等保障措施。像“安全网址”这样的技术被用于检测和缓解未经授权的数据传输。核心原则是确保潜在的危险操作不会静默执行,并模拟人类代理在类似情况下所拥有的控制权。

(来源:OpenAI)