Avanzando la inteligencia de voz con nuevos modelos en la API

OpenAI
OpenAI presenta tres nuevos modelos de API para aplicaciones de voz avanzadas, mejorando la interacción natural y las capacidades en tiempo real.

Resumen

OpenAI ha lanzado tres nuevos modelos de audio dentro de su API para habilitar una nueva clase de aplicaciones de voz. GPT-Realtime-2 ofrece razonamiento de clase GPT-5 para conversaciones naturales y solicitudes complejas. GPT-Realtime-Translate proporciona traducción de voz en vivo a través de más de 70 idiomas de entrada y 13 de salida, manteniendo el ritmo de los hablantes. GPT-Realtime-Whisper es un modelo de transcripción de voz a texto en streaming para transcripción en vivo de baja latencia. Estos modelos buscan mover las interfaces de voz de simples respuestas a agentes que puedan escuchar, razonar, traducir, transcribir y actuar en tiempo real, soportando patrones como voz a acción, guía de sistema a voz y comunicación de voz a voz. GPT-Realtime-2 presenta ventanas de contexto mejoradas, comportamiento de recuperación, control de tono y capacidades de razonamiento, mostrando mejoras significativas en los puntos de referencia de inteligencia de audio y seguimiento de instrucciones. GPT-Realtime-Translate está diseñado para experiencias de voz multilingües fluidas, mientras que GPT-Realtime-Whisper mejora los flujos de trabajo empresariales en vivo con transcripción instantánea. La API Realtime incluye medidas de seguridad y se proporcionan detalles de precios para cada modelo.

(Fuente:OpenAI)