Aceleración de flujos de trabajo de agentes con WebSockets en la API de Responses

OpenAI
OpenAI mejoró el rendimiento de los flujos de trabajo de agentes en un 40% mediante conexiones WebSocket persistentes para reducir la latencia de la API.

Resumen

Para solucionar los cuellos de botella de latencia en los flujos de trabajo de agentes causados por la sobrecarga de la API, OpenAI implementó conexiones WebSocket persistentes en su API de Responses. Al almacenar en caché el estado de la conversación y eliminar llamadas de red redundantes, esta actualización permite que modelos como GPT-5.3-Codex-Spark alcancen velocidades superiores a los 1,000 tokens por segundo. Este cambio arquitectónico elimina la necesidad de reconstruir el contexto en cada solicitud de seguimiento, lo que genera mejoras significativas de rendimiento para desarrolladores y plataformas como Vercel, Cline y Cursor.

(Fuente:OpenAI)