改进前沿大型语言模型的指令层级

English 日本語 Español

OpenAI 2026年03月05日

使用设计的指令层级任务训练大型语言模型，可以提高安全可控性和抵御提示注入攻击的能力。

阅读全文

内容摘要

人工智能系统必须根据信任层级（系统 > 开发者 > 用户 > 工具）可靠地优先处理来自系统消息、开发者指南、用户请求和工具输出等各种来源的指令。这种优先级的失败会导致安全和可靠性问题，尤其是在指令冲突时。作者引入了IH-Challenge，这是一个强化学习训练数据集，旨在通过避免过于复杂的指令、主观评分和过度拒绝等奖励最大化捷径等常见陷阱，来训练模型正确地优先处理指令。在IH-Challenge上进行训练产生了一个内部模型GPT-5 Mini-R，该模型在各种指令层级基准测试中显示出显著改进，且没有出现过度拒绝的情况。这种更强的指令层级直接转化为更好的安全可控性——当系统提示中存在安全规范时，它能提高对被禁止内容的拒绝率——以及增强了对嵌入在不可信工具输出中的提示注入攻击的鲁棒性，这表明针对指令层级的定向训练是部署更强大、更自主的AI代理的基础。

(来源：OpenAI)

English 日本語 Español

阅读全文

The Verge 2026年04月28日

Musk 对阵 Altman 的陪审团遴选：“人们不喜欢他”

The Verge 2026年04月28日

Google 正在测试 YouTube 的 AI 聊天机器人搜索

The Verge 2026年04月27日

Canonical 制定了 Ubuntu Linux 的人工智能计划

The Verge 2026年04月27日

谷歌员工要求 Sundar Pichai 拒绝使用分类军事人工智能

TechCrunch 2026年04月27日