Google 的 Gemini Omni 将图像、音频和文本转换为视频——而这仅仅是个开始

English 日本語 Español

TechCrunch 2026年05月19日

Google 推出了多模态模型 Gemini Omni，能够根据文本、图像和音频输入生成高质量视频内容。

阅读全文

内容摘要

Google 发布了全新的多模态人工智能模型系列 Gemini Omni，该模型能够综合处理文本、音频、图像和视频输入，从而生成高质量的视频内容。通过整合这些多模态信息，该模型展示了对物理和上下文的理解能力。目前推出的 Gemini Omni Flash 主要面向个人用户，支持创建数字人化身和个性化视频，并内置了 SynthID 数字水印以确保安全性。Google 计划在未来推出功能更强大的 Pro 版本，旨在为广告商和电影制作人提供更深度的创作工具。

(来源：TechCrunch)

English 日本語 Español

阅读全文

TechCrunch 2026年07月04日

Google 新广告构想了在人工智能辅助下撰写的《独立宣言》

Yahoo News 2026年07月04日

Meta雇佣数百名合同工冒充青少年，用令人不安的内容轰炸其竞争对手的AI

TechCrunch 2026年07月04日

Midjourney 要求好莱坞制片厂披露其 AI 使用细节

TechCrunch 2026年07月04日

据报道，阿里巴巴禁止员工使用 Claude Code

TechCrunch 2026年07月04日