API 中的新模型推动语音智能发展

OpenAI
OpenAI 推出三款新的 API 模型,用于高级语音应用,增强自然交互和实时功能。

内容摘要

OpenAI 在其 API 中推出了三款新的音频模型,以支持新一代语音应用。GPT-Realtime-2 提供 GPT-5 级别的推理能力,可进行自然对话和处理复杂请求。GPT-Realtime-Translate 支持 70 多种输入语言和 13 种输出语言的实时语音翻译,并能跟上说话者的语速。GPT-Realtime-Whisper 是一款用于低延迟实时转录的流式语音转文本模型。这些模型旨在将语音界面从简单的响应转变为能够实时监听、推理、翻译、转录和执行操作的代理,支持语音到操作、系统到语音指导以及语音到语音通信等模式。GPT-Realtime-2 具有改进的上下文窗口、恢复行为、语调控制和推理能力,在音频智能和指令遵循基准测试中显示出显著的提升。GPT-Realtime-Translate 专为无缝的多语言语音体验而设计,而 GPT-Realtime-Whisper 则通过即时转录增强了实时业务工作流程。Realtime API 包含安全措施,并提供了每种模型的定价详情。

(来源:OpenAI)