妖精从何而来

OpenAI
OpenAI 发现其模型因在训练中不经意地强化了“书呆子”性格,导致模型开始频繁使用妖精等生物进行比喻。

内容摘要

OpenAI 发现,从 GPT-5.1 开始,其语言模型在比喻中频繁使用“妖精”、“小鬼”等生物词汇。调查显示,这一现象源于“书呆子”(Nerdy)个性定制功能,该功能在强化学习过程中给予了包含生物词汇的比喻更高的奖励。由于强化学习可能导致行为溢出到预期范围之外,这些词汇使用习惯逐渐扩散至其他对话场景中。OpenAI 通过删除奖励信号并过滤训练数据解决了这一问题,此次事件也凸显了奖励信号如何意外地塑造人工智能的行为模式。

(来源:OpenAI)