Cómo OpenAI ofrece IA de voz de baja latencia a escala
Resumen
OpenAI desarrolló una arquitectura de "relé y transceptor dividido" para mantener una IA de voz de alto rendimiento y baja latencia. Al delegar la gestión de sesiones WebRTC a transceptores especializados y utilizar una capa de relé ligera para el enrutamiento de paquetes, evitaron la complejidad de exponer rangos masivos de puertos UDP en Kubernetes. Este diseño preserva la compatibilidad con el estándar WebRTC, garantizando al mismo tiempo una conectividad global eficiente y un rendimiento escalable para ChatGPT Voice y la API Realtime.
(Fuente:OpenAI)