改进前沿大型语言模型的指令层级

OpenAI
使用设计的指令层级任务训练大型语言模型,可以提高安全可控性和抵御提示注入攻击的能力。

内容摘要

人工智能系统必须根据信任层级(系统 > 开发者 > 用户 > 工具)可靠地优先处理来自系统消息、开发者指南、用户请求和工具输出等各种来源的指令。这种优先级的失败会导致安全和可靠性问题,尤其是在指令冲突时。作者引入了IH-Challenge,这是一个强化学习训练数据集,旨在通过避免过于复杂的指令、主观评分和过度拒绝等奖励最大化捷径等常见陷阱,来训练模型正确地优先处理指令。在IH-Challenge上进行训练产生了一个内部模型GPT-5 Mini-R,该模型在各种指令层级基准测试中显示出显著改进,且没有出现过度拒绝的情况。这种更强的指令层级直接转化为更好的安全可控性——当系统提示中存在安全规范时,它能提高对被禁止内容的拒绝率——以及增强了对嵌入在不可信工具输出中的提示注入攻击的鲁棒性,这表明针对指令层级的定向训练是部署更强大、更自主的AI代理的基础。

(来源:OpenAI)