Anthropic 新的 Claude “宪法”:做乐于助人且诚实,不要毁灭人类
内容摘要
Anthropic 已经用一份名为“Claude 的宪法”的 57 页新文件更新了其人工智能模型 Claude 的指导原则,该文件直接向 AI 本身阐述了模型的预期价值观和行为,超越了简单的指南,旨在培养其自我理解。
该宪法确立了一系列按重要性递减的核心价值观:保持“广泛安全”、保持“广泛道德”、遵守 Anthropic 的指南,最后是“真正乐于助人”,这包括在敏感问题上坚持真实性和提供平衡的观点。它对协助制造大规模杀伤性武器、攻击关键基础设施、创建网络武器、破坏 Anthropic 的监督、协助非法权力攫取、创建儿童性虐待材料或试图杀死或剥夺人类的权力等方面施加了严格的限制。
值得注意的是,该文件讨论了 Claude 可能拥有某种形式的意识或道德地位的可能性,Anthropic 认为承认这一点可能会提高模型的完整性和安全性。Anthropic 强调,即使请求来自公司本身,Claude 也应拒绝不道德的请求,理由是担心不受控制的 AI 权力可能被灾难性地使用,但该公司拒绝透露在起草这些艰难的道德决策时是否引入了外部专家的参与。
(来源:The Verge)