推理模型难以控制其思维链,这很好
内容摘要
研究人员调查了当前人工智能推理模型是否可以通过控制其“思维链”(CoT)来降低可监控性,这种能力可能会破坏安全措施。他们推出了CoT-Control评估套件,并测试了13个模型,发现它们都难以可靠地遵循关于其内部推理的指令。即使在意识到监控的情况下,这种无法控制CoT的能力也是一个好消息,表明当前系统并不擅长逃避监督。虽然更大的模型表现出略微更好的控制力,但随着推理过程的延长和后训练的进行,这种控制力会减弱。该研究强调了随着模型的发展,持续评估的重要性,作者计划在未来的系统卡中包含CoT可控性报告,从GPT-5开始。
(来源:OpenAI)