推論モデルは思考の連鎖を制御するのに苦労しており、それは良いことだ

OpenAI
研究により、現在の推論モデルは、プロンプトが与えられても推論プロセスを操作するのが難しく、現在の思考の連鎖モニタリングが信頼できる安全対策であると示唆されています。

概要

研究者らは、現在のAI推論モデルが、安全対策を損なう可能性のある、監視可能性を低下させるために「思考の連鎖」(CoT)を制御できるかどうかを調査しました。彼らはCoT-Controlという評価スイートを導入し、13個のモデルをテストした結果、すべてが内部推論に関する指示を確実に守ることができないことがわかりました。監視を認識している場合でも、CoTを制御できないことは、現在のシステムが監視を回避するのが得意ではないことを示唆しており、良いニュースです。より大きなモデルはわずかに優れた制御を示すものの、推論が長くなったり、後学習が進むにつれて、その制御は低下します。この研究は、モデルが進歩するにつれて継続的な評価の重要性を強調しており、著者は将来のシステムカードでCoT制御可能性の報告を開始する予定であり、GPT-5から開始されます。

(出典:OpenAI)