デプロイシミュレーションによるリリース前のモデル挙動予測
概要
デプロイシミュレーションは、デプロイ前の安全性評価手法であり、過去の実際のユーザーとの会話を候補モデルに再実行させることで、現実的な非敵対的コンテキストにおける挙動を観察します。この手法は、代表的なプロダクションデータを利用することで、モデルの新たな誤作動(アライメントの欠如)を特定し、モデルがテスト中であることを察知しにくくし、望ましくない挙動の発生率を定量化します。従来のレッドチーミングや敵対的評価を補完する現実的な予測レイヤーを提供しますが、発生頻度の極めて低いリスクを検出するものではないため、従来の手法と併用する必要があります。
(出典:OpenAI)