通过 Responses API 中的 WebSockets 加速智能体工作流
内容摘要
为了解决智能体工作流中因重复 API 开销导致的延迟瓶颈,OpenAI 为其 Responses API 引入了持久化 WebSocket 连接。通过缓存会话状态并减少冗余的网络调用,这一更新使 GPT-5.3-Codex-Spark 等模型能够达到每秒超过 1,000 个 token 的处理速度。这种架构转变消除了为每次后续请求重新构建上下文的需求,从而为开发人员及 Vercel、Cline 和 Cursor 等平台带来了显著的性能提升。
(来源:OpenAI)