Responses API での WebSocket によるエージェントワークフローの高速化
概要
エージェントワークフローにおける繰り返し発生する API オーバーヘッドによる遅延を解消するため、OpenAI は Responses API に永続的な WebSocket 接続を実装しました。会話状態をキャッシュし、冗長なネットワーク呼び出しを削減することで、GPT-5.3-Codex-Spark などのモデルは秒間 1,000 トークンを超える処理速度を実現しました。このアーキテクチャの変更により、後続のリクエストごとにコンテキストを再構築する必要がなくなり、開発者や Vercel、Cline、Cursor などのプラットフォームで大幅なパフォーマンス向上が達成されました。
(出典:OpenAI)