评估思维链的可监控性

OpenAI
研究人员提出了一个框架和13项评估,以系统地衡量AI模型思维链的可监控性。

内容摘要

随着AI系统越来越难以直接监督,监控其明确的思维链(CoT)推理至关重要,尽管研究人员担心这种可监控性会随着规模扩大或训练变化而退化。OpenAI的研究人员提出了一个框架和一套包含13项评估的工具集,这些评估涵盖干预、过程和结果属性三种类型,用于系统地衡量CoT的可监控性。

研究发现,大多数前沿推理模型的可监控性相当高,并且监控CoT比仅监控行为或最终输出来得更有效。推理时间更长的模型往往更具可监控性,而当前强化学习优化似乎不会有意义地降低可监控性。一个关键发现是存在权衡:以更高推理努力运行的小模型可以匹配低努力运行的大模型的性能,但这会带来增加推理计算成本的“可监控性税”。此外,提出后续问题可以事后提高可监控性。

可监控性被定义为监控器预测有关代理行为的感兴趣属性的能力,它取决于监控器和代理的推理结构。作者认为CoT监控与机制可解释性是互补的,是未来在更高风险环境中安全部署AI系统所需的可扩展控制策略的一部分。

(来源:OpenAI)