Googleの「Gemini Omni」が画像・音声・テキストを動画に変換 ― それはまだ始まりに過ぎない
概要
Googleは、テキスト、音声、画像、動画を統合的に推論し、高品質な動画を生成できる新たなマルチモーダルAIモデル「Gemini Omni」を発表しました。このモデルは、物理法則や文脈を理解した一貫性のある出力を可能にします。現在提供されている「Gemini Omni Flash」は、一般ユーザー向けのパーソナライズされた動画作成やデジタルアバター生成に注力しており、安全対策としてSynthID透かしが適用されています。今後、より高度な「Pro」モデルの投入も予定されており、広告や映画制作などのプロフェッショナルな領域での活用が期待されています。
(出典:TechCrunch)