Google 的 Gemini Omni 将图像、音频和文本转换为视频——而这仅仅是个开始

TechCrunch
Google 推出了多模态模型 Gemini Omni,能够根据文本、图像和音频输入生成高质量视频内容。

内容摘要

Google 发布了全新的多模态人工智能模型系列 Gemini Omni,该模型能够综合处理文本、音频、图像和视频输入,从而生成高质量的视频内容。通过整合这些多模态信息,该模型展示了对物理和上下文的理解能力。目前推出的 Gemini Omni Flash 主要面向个人用户,支持创建数字人化身和个性化视频,并内置了 SynthID 数字水印以确保安全性。Google 计划在未来推出功能更强大的 Pro 版本,旨在为广告商和电影制作人提供更深度的创作工具。

(来源:TechCrunch)