プロンプトインジェクションに耐性を持つAIエージェントの設計

OpenAI
AIエージェントはプロンプトインジェクション攻撃を受けやすく、その攻撃は高度化し、ソーシャルエンジニアリングに似ており、単純な入力フィルタリング以上の防御が必要です。

概要

ウェブブラウジングやアクション実行が可能なAIエージェントは、悪意のある指示が外部コンテンツに埋め込まれるプロンプトインジェクション攻撃を受けやすいです。これらの攻撃は、単純なプロンプトの上書きから、より複雑なソーシャルエンジニアリング戦術へと進化しており、検出が困難になっています。これらの攻撃に対する防御には、悪意のある入力を特定するだけでなく、成功した場合の影響を制限するようにシステムを設計することが必要です。著者は、プロンプトインジェクションを、人間のカスタマーサービスエージェントを保護するのと同じように、ソーシャルエンジニアリングのリスク管理の観点から捉えることを提唱しています。これには、エージェントの機能を制限したり、不審なアクティビティをフラグ付けしたり、機密情報の送信などの潜在的に危険なアクションを実行する前に確認を求めたりするなどのセーフガードの実装が含まれます。 「Safe Url」などの技術は、不正なデータ送信を検出し、軽減するために使用されます。重要な原則は、潜在的に危険なアクションがサイレントに実行されないようにし、同様の状況下で人間のエージェントが持つ制御をエミュレートすることです。

(出典:OpenAI)