Avanzando la inteligencia de voz con nuevos modelos en la API
Resumen
OpenAI ha lanzado tres nuevos modelos de audio dentro de su API para habilitar una nueva clase de aplicaciones de voz. GPT-Realtime-2 ofrece razonamiento de clase GPT-5 para conversaciones naturales y solicitudes complejas. GPT-Realtime-Translate proporciona traducción de voz en vivo a través de más de 70 idiomas de entrada y 13 de salida, manteniendo el ritmo de los hablantes. GPT-Realtime-Whisper es un modelo de transcripción de voz a texto en streaming para transcripción en vivo de baja latencia. Estos modelos buscan mover las interfaces de voz de simples respuestas a agentes que puedan escuchar, razonar, traducir, transcribir y actuar en tiempo real, soportando patrones como voz a acción, guía de sistema a voz y comunicación de voz a voz. GPT-Realtime-2 presenta ventanas de contexto mejoradas, comportamiento de recuperación, control de tono y capacidades de razonamiento, mostrando mejoras significativas en los puntos de referencia de inteligencia de audio y seguimiento de instrucciones. GPT-Realtime-Translate está diseñado para experiencias de voz multilingües fluidas, mientras que GPT-Realtime-Whisper mejora los flujos de trabajo empresariales en vivo con transcripción instantánea. La API Realtime incluye medidas de seguridad y se proporcionan detalles de precios para cada modelo.
(Fuente:OpenAI)