信頼できる第三者評価のための共有プレイブック
概要
本稿では、フロンティアAIモデルにおける独立した第三者評価の重要な役割について論じています。OpenAIは、モデルがツールを使用し複数ステップのワークフローを遂行する自律的エージェントへと進化する中で、従来のチャットボット形式の評価では不十分であると指摘しています。著者らは、モデルの動作環境を支える「ハーネス」という概念を導入し、これが評価結果を左右する重要な要素であると解説しています。研究者が透明性を確保し、主張の意図、使用したハーネスと予算、さらに報酬ハッキングやデータ汚染などのリスクチェックを明記するためのガイドラインを提示しています。これにより、モデルの能力と安全性リスクを正確に反映する、標準化された厳格な評価手法の確立を目指しています。
(出典:OpenAI)