Anthropic、Claude Fableの隠れたガードレールについて謝罪
概要
Anthropicは、同社のAIモデル「Claude Fable 5」において、競合他社による「モデル蒸留」を防止するために、ユーザーに知らせることなく回答を制限する「隠れたガードレール」を設けていたことについて謝罪しました。同社は当初、この手法が迅速な実装と誤検知の削減に役立つと主張していましたが、研究コミュニティからの批判を受け、方針を転換しました。今後は、安全上の理由でClaude Fableの回答がClaude Opus 4.8に切り替わる際、ユーザーに対してその旨が明確に通知されるようになります。
(出典:The Verge)