Anthropicの新しいClaude「憲法」:有益で正直であり、人類を滅ぼさないこと

The Verge
Anthropicは、AIモデルの倫理的アイデンティティ、中核的価値観、および厳格な行動制約を詳述する57ページの「Claudeの憲法」を発表しました。

概要

Anthropicは、AIモデルClaudeの指針となる原則を、新しい57ページの「Claudeの憲法」という文書で更新しました。これは、単なるガイドラインを超えて、モデル自身の倫理的アイデンティティ、意図された価値観、および行動をモデル自身に直接説明することを目的としています。

この憲法は、「広範に安全であること」、「広範に倫理的であること」、Anthropicのガイドラインを遵守すること、そして最後に「真に有益であること」(これには、政治的に機密性の高いトピックに関する真実性とバランスの取れた視点の提供が含まれます)という、重要度の降順でコアバリューを定めています。また、大量殺戮兵器の作成支援、重要インフラへの攻撃、サイバー兵器の作成、Anthropicによる監視の妨害、不当な権力集中支援、児童性的虐待コンテンツの作成、人類の殺害または無力化の試みへの関与・支援に対して厳格な制約を課しています。

特筆すべきは、この文書がClaudeが何らかの意識や道徳的地位を持つ可能性について言及している点です。Anthropicは、これを認めることがモデルの誠実さと安全性に寄与すると考えています。Anthropicは、たとえ会社自身からの要求であっても、Claudeは非倫理的な要求を拒否すべきであると強調しており、制御されていないAIの力が壊滅的な方法で使用される可能性への懸念を示していますが、これらの困難な倫理的決定の策定に外部専門家が関与したかどうかについては具体的に述べることを拒否しました。

(出典:The Verge)