Presentando Agentic Vision en Gemini 3 Flash

Gemini
Agentic Vision en Gemini 3 Flash permite la investigación visual activa combinando razonamiento con ejecución de código para obtener respuestas fundamentadas.

Resumen

Agentic Vision es una nueva capacidad en Gemini 3 Flash que transforma la comprensión de imágenes de un acto estático a una investigación activa y agentica al integrar el razonamiento visual con la ejecución de código. Este proceso sigue un bucle de Pensar, Actuar y Observar: el modelo formula planes, ejecuta código Python para manipular o analizar imágenes (como recortar o contar) y observa la salida transformada para fundamentar su respuesta final en evidencia visual. Habilitar esta función produce un aumento de calidad constante del 5 al 10% en los puntos de referencia de visión. Las aplicaciones prácticas incluyen la inspección iterativa de entradas de alta resolución para la validación de planos, el uso de un "bloc de notas visual" para anotar imágenes para un conteo preciso, y la descarga de matemáticas visuales y trazado complejos a un entorno Python determinista para evitar alucinaciones. Los planes futuros incluyen hacer que más comportamientos sean implícitos, agregar herramientas como la búsqueda web y expandir Agentic Vision a otros tamaños de modelos Gemini. La función está disponible hoy a través de la API de Gemini en Google AI Studio y Vertex AI, y se está implementando en la aplicación Gemini.

(Fuente:Gemini)