通过 Responses API 中的 WebSockets 加速智能体工作流

OpenAI
OpenAI 通过使用持久化 WebSocket 连接减少 API 开销,将智能体工作流的性能提升了 40%。

内容摘要

为了解决智能体工作流中因重复 API 开销导致的延迟瓶颈,OpenAI 为其 Responses API 引入了持久化 WebSocket 连接。通过缓存会话状态并减少冗余的网络调用,这一更新使 GPT-5.3-Codex-Spark 等模型能够达到每秒超过 1,000 个 token 的处理速度。这种架构转变消除了为每次后续请求重新构建上下文的需求,从而为开发人员及 Vercel、Cline 和 Cursor 等平台带来了显著的性能提升。

(来源:OpenAI)