最前線のLLMにおける命令階層の改善

OpenAI
設計された命令階層タスクでLLMを訓練することにより、安全な制御性とプロンプトインジェクション攻撃への耐性が向上します。

概要

AIシステムは、システムメッセージ、開発者のガイダンス、ユーザーのリクエスト、ツール出力など、さまざまなソースからの指示を信頼の階層(システム > 開発者 > ユーザー > ツール)に従って確実に優先順位を付ける必要があります。この優先順位付けの失敗は、特に指示が競合する場合に、安全性と信頼性の問題を引き起こします。著者らは、IH-Challengeという強化学習トレーニングデータセットを導入しました。これは、複雑すぎる指示、主観的な評価、過剰拒否などの報酬最大化の近道といった一般的な落とし穴を回避することで、モデルが指示を正しく優先するように訓練することを目的としています。IH-Challengeでトレーニングされた内部モデルGPT-5 Mini-Rは、過剰拒否に陥ることなく、さまざまな命令階層ベンチマークで大幅な改善を示しました。このより強固な命令階層は、システムプロンプトに安全仕様が存在する場合に安全でないリクエストに対する拒否率を向上させるという安全な制御性の向上と、信頼できないツール出力に埋め込まれたプロンプトインジェクション攻撃に対する耐性の強化という形で直接的に現れており、命令階層に対するターゲットを絞ったトレーニングが、より有能で自律的なAIエージェントを展開するための基礎となることを示唆しています。

(出典:OpenAI)