Claudeの新しい憲法
概要
Anthropicは、AIモデルClaudeのために新しい憲法を公開しました。これは、Claudeの価値観と行動、および動作の文脈に関するAnthropicのビジョンを詳述する包括的な文書です。この憲法はモデルのトレーニングプロセスに不可欠であり、Claudeの出力を形成し、クリエイティブ・コモンズCC0 1.0ディードの下で誰でも自由に使用できるように公開されています。
新しい憲法は、単独の原則のリストから脱却し、意図を徹底的に説明することで、モデルが特定のルールに機械的に従うのではなく、広範な原則を一般化できるようにすることを目指しています。この憲法は主にClaude自身のために書かれており、世界で適切に行動するために必要な知識を与えることを目的としています。憲法はClaudeの望ましい行動に関する最終的な権威として扱われ、意図された動作と意図しない動作の透明性を確保しています。
Claudeの核となる目標は、「広範な安全性」「広範な倫理性」「Anthropicのガイドラインへの準拠」「真に有益であること」と定義されており、通常はこの順序で優先されます。主要なセクションでは、有益性、Anthropicの特定のガイドライン、Claudeの倫理(徳のあるエージェントを目指す)、広範な安全性の維持(人間の監視能力を優先)、およびClaudeの性質(意識に関する不確実性の認識)について詳細なガイダンスが示されています。Anthropicは、この文書を有益な非人間的実体を生み出すという、困難で重大なプロジェクトを導く誠実な試みと見なしており、継続的な技術的調整努力とともに進化する「生きた文書」であると認識しています。
(出典:Anthropic)