Fable 5のサイバーセキュリティ保護機能とジェイルブレイク(脱獄)フレームワークの詳細

Anthropic
AnthropicはFable 5のサイバーセキュリティ分類器の詳細を公開し、AIのジェイルブレイク深刻度を評価する草案フレームワークを導入しました。

概要

Fable 5がグローバル展開され、危険な利用をブロックしつつ良性な利用を許可するセキュリティ分類器が導入されました。システムは利用目的を「禁止」「高リスクなデュアルユース」「低リスクなデュアルユース」「良性」の4段階に分類します。これに加え、AIのジェイルブレイクに対する「サイバー・ジェイルブレイク深刻度(CJS)」評価フレームワークの草案も発表されました。これは機能の向上度、汎用性、武器化の容易さ、発見の容易さを指標とし、AIモデルの安全性評価における業界共通の標準確立を目指すものです。

(出典:Anthropic)