Gemini 3 Flash における Agentic Vision の紹介
概要
Agentic Vision は、Gemini 3 Flash の新機能であり、視覚的推論とコード実行を組み合わせることで、静的なプロセスから能動的なエージェント的調査へと画像理解を変換します。このプロセスは、「思考、行動、観察」のループに従います。モデルは手順を計画し、Pythonコードを実行して画像を操作または分析(クロップやカウントなど)し、変換された出力を観察することで、最終的な応答を視覚的証拠に基づいて確立します。この機能を有効にすると、ビジョンベンチマーク全体で一貫して 5〜10% の品質向上がもたらされます。実用的な応用例には、計画検証のための高解像度入力の反復的な検査、正確なカウントのための画像注釈付けに使用される「視覚的スクラッチパッド」、および幻覚を避けるための決定論的な Python 環境への複雑な視覚的数学およびプロットのオフロードが含まれます。今後の計画には、より多くの動作を暗黙的にすること、ウェブ検索などのツールを追加すること、および Agentic Vision を他の Gemini モデルサイズに拡張することが含まれます。この機能は現在、Google AI Studio および Vertex AI の Gemini API 経由で利用可能であり、Gemini アプリでも展開が開始されています。
(出典:Gemini)