Dream2Flow:スタンフォードの新しいAIはロボットに動作前にタスクを「想像」させる
概要
スタンフォード大学の研究チームは、AIのビデオ生成と物理的なロボット工学との間の「具現化のギャップ」を埋めるために、Dream2Flowというフレームワークを開発しました。Dream2Flowは、ロボットに生成されたビデオのピクセルを模倣させるのではなく、それを概念的なガイドとして扱い、タスクが完了する視覚的シーケンスを「夢見」させます。このプロセスから、研究者たちは「3Dオブジェクトフロー」を抽出します。これは、ビデオ内のアクターに関係なく、オブジェクトが3次元空間を移動すると予想される数学的な経路です。この物体中心の軌道により、ロボットアームや二足歩行ロボットなど、さまざまなロボットがその独自のボディに合わせて制御アクションを計算できます。このアプローチは、生成AIに依存しているため、物体が突然変形したり、フレーム内に消えたりする「悪夢」のような問題も抱えていますが、実世界での評価では、ほとんどの失敗がロボット制御自体ではなく、初期のビデオ生成段階で発生したことが報告されています。
(出典:ScienceClock)