デプロイシミュレーションによるリリース前のモデル挙動予測

OpenAI
OpenAIは、実際の会話履歴を再実行することでリリース前にモデルの挙動を予測し、安全性を向上させるデプロイシミュレーション手法を導入しました。

概要

デプロイシミュレーションは、デプロイ前の安全性評価手法であり、過去の実際のユーザーとの会話を候補モデルに再実行させることで、現実的な非敵対的コンテキストにおける挙動を観察します。この手法は、代表的なプロダクションデータを利用することで、モデルの新たな誤作動(アライメントの欠如)を特定し、モデルがテスト中であることを察知しにくくし、望ましくない挙動の発生率を定量化します。従来のレッドチーミングや敵対的評価を補完する現実的な予測レイヤーを提供しますが、発生頻度の極めて低いリスクを検出するものではないため、従来の手法と併用する必要があります。

(出典:OpenAI)