API 中的新模型推动语音智能发展

English 日本語 Español

OpenAI 2026年05月07日

OpenAI 推出三款新的 API 模型，用于高级语音应用，增强自然交互和实时功能。

阅读全文

内容摘要

OpenAI 在其 API 中推出了三款新的音频模型，以支持新一代语音应用。GPT-Realtime-2 提供 GPT-5 级别的推理能力，可进行自然对话和处理复杂请求。GPT-Realtime-Translate 支持 70 多种输入语言和 13 种输出语言的实时语音翻译，并能跟上说话者的语速。GPT-Realtime-Whisper 是一款用于低延迟实时转录的流式语音转文本模型。这些模型旨在将语音界面从简单的响应转变为能够实时监听、推理、翻译、转录和执行操作的代理，支持语音到操作、系统到语音指导以及语音到语音通信等模式。GPT-Realtime-2 具有改进的上下文窗口、恢复行为、语调控制和推理能力，在音频智能和指令遵循基准测试中显示出显著的提升。GPT-Realtime-Translate 专为无缝的多语言语音体验而设计，而 GPT-Realtime-Whisper 则通过即时转录增强了实时业务工作流程。Realtime API 包含安全措施，并提供了每种模型的定价详情。

(来源：OpenAI)

English 日本語 Español

阅读全文

Bbc 2026年06月21日

为什么一家人工智能公司免费清洁了我的纽约公寓

TechCrunch 2026年06月21日

当特朗普政府对 Anthropic 采取严厉打击时，谁会受益？

TechCrunch 2026年06月21日

超越 Siri：以下是 iOS 27 为您的 iPhone 带来的实用 AI 功能

the Guardian 2026年06月21日

品牌正在利用人工智能生成的网红在社交媒体上推广产品

TechCrunch 2026年06月20日