LLMジグソー:VLMにおける空間推論のベンチマーキング - 最先端モデルが5×5パズルで限界に
分析
“”
“”
“このベンチマークは、モデルの視覚的推論を多く要求します。つまり、ピースを頭の中で回転させ、座標を正しく数え、各ピースの星印の付いた正方形を追跡し、ボード上の異なるピースの関係を判断する必要があります。”
“Chain-of-Thought (CoT)推論と自己反省でベースラインエージェントを強化すると、予期せぬパフォーマンスの低下につながり、MLLMsが組み込みナビゲーションタスクにおいてコンテキスト認識が低いことを示唆しています。”
“2段階のアプローチは、空間推論を原子的な構成要素とその組み合わせに分解します。”
“記憶表現は、空間的経験を統合する上で中心的な役割を果たし、特にシーケンシャルおよびグラフベースの表現などの構造化された記憶は、経路計画などの構造集約型タスクのパフォーマンスを大幅に向上させます。”
“ViReLocは、2つの与えられた地上画像間のルートを計画します。”
“LVLDriveは、シーン理解、メトリック空間認識、および信頼性の高い運転意思決定において、ビジョンのみの対応物よりも優れたパフォーマンスを達成しています。”
“FIGRは、AIME 2025で13.12%、BeyondAIMEで11.00%、ベースモデルを改善し、図形誘導型マルチモーダル推論が複雑な推論の安定性と信頼性を高める上で有効であることを強調しています。”
“DiffThinkerは、GPT-5 (+314.2%)、Gemini-3-Flash (+111.6%)、および微調整されたQwen3-VL-32Bベースライン (+39.0%) を含む主要なクローズドソースモデルを大幅に上回り、視覚中心の推論に対する有望なアプローチとして、生成型マルチモーダル推論を強調しています。”
“この論文は、200万のQAペアを特徴とする包括的な命令チューニングデータセットSpatialMosaicと、6つのタスクにわたる100万のQAペアからなる、現実的で困難なシナリオ下でのマルチビュー空間推論を評価するための挑戦的なベンチマークSpatialMosaic-Benchを紹介しています。”
“主要なLLMは、すべての長期タスクで一律0.00%の合格率を示し、長期的な計画における根本的な失敗を露呈しました。”
“論文は、VPTrackerが「困難なシナリオ下でトラッキングの安定性とターゲットの曖昧性解消を大幅に強化し、ビジュアルトラッキングにMLLMを統合するための新しい道を開く」と強調しています。”
“”
“...3Dパノプティック占有予測において、幾何学的整合性と境界認識の両方を強化するために、3Dガウスとエッジ事前分布を用いたハイブリッドビュー変換ブランチを活用する新しいフレームワーク。”
“具体化されたエージェントを人間の環境に統合するには、具体化された社会的知能が必要です。社会的規範と物理的制約の両方について推論することです。”
“”
“”
“Cube Benchは、MLLMにおける空間視覚推論のベンチマークです。”
“この論文は動的空間理解に焦点を当てており、時間を次元として考慮することを示唆しています。”
“この研究は、MLLMにおける空間推論のギャップを明らかにしています。”
“”
“”
“”
“”
“研究論文はArXivから引用されています。”
“”
“R4は、空間的および時間的次元の両方で視覚情報を処理し、推論するために、検索拡張技術を活用している可能性があります。”
“この研究は、グラフベースのRAGを利用しています。”
“このフレームワークは、デュアルステージアプローチを利用しています。”
“この記事は、このトピックの「完全ガイド」です。”
“”
“”
“言語モデルは、(すでに圧縮された人間の知識である)テキストを、私たちが生データから学習するのと同じメカニズムを使用して処理します。”
“この論文は、ビデオ内の空間的な動きの自動ラベリングと推論に焦点を当てています。”
“この研究は、視覚言語モデルを介した分子の微視的空間知能のベンチマーキングに焦点を当てています。”
“”
“この研究は、カメラの傾きとオブジェクトの干渉がVLMの空間推論に与える影響に焦点を当てています。”
“この研究は、空中視覚言語ナビゲーションに焦点を当てています。”
“”
“この研究は、ビジョンと言語モデルにおける多段階地図推論のベンチマーキングに焦点を当てています。”
“SpatialDreamer:能動的な心的イメージングを通じた空間推論の促進”
“この研究は、航空画像からの3D地理空間推論におけるビジョン-言語モデルの評価に焦点を当てています。”
“”
“”
“”
“この研究は、3Dシーンと言語理解のために大規模言語モデルにおける空間推論能力の解放に焦点を当てています。”
“この研究は、シーケンシャルな具現化されたMLLMの推論と探索に焦点を当てています。”
“「推論経路」と「潜在状態」に焦点を当てていることから、この記事はAIの「ブラックボックス」的な性質に関心があり、これらのモデルの内部構造を理解したいと考えていることが示唆される。”
“この研究は、3DビジュアルグラウンディングにおけるMLLMの空間推論能力の向上に焦点を当てています。”
“DrawingBenchは、マウス操作描画タスクを通じて空間推論とUI操作能力を評価します。”