VAGEN：視覚状態推論で世界モデル構築を学習するVLMエージェント

スタンフォードAIラボは、VLM（Vision-Language Model）エージェントが明示的な視覚状態推論を通じて内部世界モデルを構築することを学習させるための強化学習フレームワーク「VAGEN」を発表しました。

VAGENは、エージェントが環境との相互作用を通じて、自身の行動とその結果を理解し、未来を予測するための内部的な知識ベースを構築することを目指します。これにより、AIはより複雑なタスクを自律的に実行できるようになることが期待されています。

この研究は、AIが単に指示に従うだけでなく、現実世界をどのように理解し、それを基に行動を決定できるのかという、AIの「意識」や「理解」の深淵に迫るものです。