AIの「空間認識能力」を測る新ベンチマーク「Theory of Space」、6つの最先端モデルに「探求の壁」と「模倣の限界」が明らかに

スタンフォードAIラボは、基盤モデル（Foundation Models）が能動的な探求を通じて空間的な信念を構築、修正、活用できるかをテストする新たなベンチマーク「Theory of Space」を発表しました。このベンチマークを用いた評価では、GPT-4V、Gemini Pro、LLaVA-1.5など6つの最先端モデルで、空間情報の理解に重要な「探求のボトルネック」、テキストと視覚情報の間の「モダリティギャップ」、そして「信念の不整合」といった根本的な課題が浮き彫りになりました。

研究者たちは、これらのモデルが単純な情報提示では空間関係を捉えられるものの、自ら環境を探索し、試行錯誤する能力には大きな限界があることを発見しました。この結果は、AIが現実世界でより自律的かつ効果的に機能するために、空間認識能力の向上が不可欠であることを示唆しています。