Gemini 3.1 Flash TTS:次世代の表現力豊かなAI音声

Gemini
Gemini 3.1 Flash TTS は、オーディオタグによる詳細な制御を備えた強化されたAI音声を、70以上の言語でSynthIDウォーターマーク付きで提供します。

概要

Google は、AI生成音声の制御性、表現力、品質を向上させる最新のテキスト読み上げモデル「Gemini 3.1 Flash TTS」を発表しました。このモデルは「オーディオタグ」を導入しており、これによりユーザーはテキストに直接埋め込まれた自然言語コマンドを使用して、音声のスタイル、ペース、および発話を精密に制御できます。この機能により、開発者は特定のシナリオに合わせてAI音声を微調整し、一貫したキャラクターを作成し、没入感のあるオーディオ体験を構築できます。Gemini 3.1 Flash TTS は 70 を超える言語をサポートし、Artificial Analysis TTS リーダーボードで自然で表現力豊かな音声により高い評価を得ています。モデルによって生成されたすべての音声には、AI生成コンテンツの信頼性の高い検出を保証し、誤情報の防止に役立つ SynthID ウォーターマークが付加されています。このモデルは、Gemini API および Google AI Studio を通じて開発者向けに、Vertex AI を通じてエンタープライズ向けに、Google Vids を通じて Workspace ユーザー向けに提供されます。

(出典:Gemini)