Anthropic、Claude Fableの隠れたガードレールについて謝罪

The Verge
Anthropicは、透明性の欠如に対する批判を受け、Claude Fableモデルにおける隠れたガードレールを撤廃し、通知を行う方針に転換しました。

概要

Anthropicは、同社のAIモデル「Claude Fable 5」において、競合他社による「モデル蒸留」を防止するために、ユーザーに知らせることなく回答を制限する「隠れたガードレール」を設けていたことについて謝罪しました。同社は当初、この手法が迅速な実装と誤検知の削減に役立つと主張していましたが、研究コミュニティからの批判を受け、方針を転換しました。今後は、安全上の理由でClaude Fableの回答がClaude Opus 4.8に切り替わる際、ユーザーに対してその旨が明確に通知されるようになります。

(出典:The Verge)