Gemini Omni de Google convierte imágenes, audio y texto en video, y esto es solo el comienzo

TechCrunch
Google presentó Gemini Omni, un modelo multimodal capaz de generar video de alta calidad a partir de entradas de texto, imagen y audio.

Resumen

Google ha presentado Gemini Omni, una nueva familia de modelos de IA multimodal capaces de razonar sobre texto, audio, imágenes y video para generar contenido de video de alta calidad. Al sintetizar estas diversas entradas, el modelo busca simular la realidad mediante una comprensión profunda de la física y el contexto. Actualmente disponible como Gemini Omni Flash, la herramienta permite a los usuarios crear avatares digitales y videos personalizados, incorporando la marca de agua digital SynthID para mayor seguridad. Se espera que futuras iteraciones, incluyendo una versión Pro más potente, expandan su utilidad para cineastas y anunciantes profesionales.

(Fuente:TechCrunch)