Anthropic 就 Claude Fable 的隐形护栏致歉

The Verge
因缺乏透明度引发争议,Anthropic 宣布取消 Claude Fable 模型中的隐形护栏机制。

内容摘要

Anthropic 已就其 Claude Fable 5 AI 模型中设置“隐形”护栏的行为致歉。这些护栏旨在秘密限制模型输出,以防范竞争对手进行“模型蒸馏”,但由于缺乏透明度,遭到了 AI 研究社区的强烈反对。Anthropic 原本认为这种方式能提升部署效率并减少误报,但现在决定改变做法。未来,当系统触发安全机制导致查询被转至 Claude Opus 4.8 处理时,Anthropic 将明确告知用户,以确保用户拥有知情权。

(来源:The Verge)