Gemini 3.1 Flash TTS:下一代富有表现力的人工智能语音
内容摘要
Google 推出了 Gemini 3.1 Flash TTS,这是其最新的文本转语音模型,旨在为人工智能生成的语音提供改进的可控性、表现力和质量。该模型引入了“音频标签”,允许用户通过直接嵌入文本中的自然语言命令来精确控制语音风格、语速和表达方式。此功能使开发人员能够针对特定场景微调 AI 语音,创建一致的角色,并构建沉浸式音频体验。Gemini 3.1 Flash TTS 支持 70 多种语言,并在 Artificial Analysis TTS 排行榜上取得了高分,以其自然和富有表现力的语音而闻名。该模型生成的所有音频都带有 SynthID 水印,以确保对 AI 生成内容进行可靠检测并帮助防止错误信息。该模型可通过 Gemini API 和 Google AI Studio 为开发人员提供,通过 Vertex AI 为企业提供,并通过 Google Vids 为 Workspace 用户提供。
(来源:Gemini)