M$^3$KG-RAG:マルチホップマルチモーダル知識グラフ強化検索拡張生成
分析
本論文では、マルチモーダル大規模言語モデル(MLLM)の推論およびグラウンディング能力を強化するために、マルチホップマルチモーダル知識グラフ(MMKG)を活用した、新しい検索拡張生成(RAG)アプローチであるM$^3$KG-RAGを紹介しています。主な革新には、マルチホップMMKGを構築するためのマルチエージェントパイプラインと、正確なエンティティグラウンディングと冗長なコンテキストプルーニングのためのGRASP(Grounded Retrieval And Selective Pruning)メカニズムが含まれます。この論文は、既存のマルチモーダルRAGシステムの限界、特にモダリティカバレッジ、マルチホップ接続、および無関係な知識のフィルタリングに対処しています。実験結果は、さまざまなマルチモーダルベンチマークにおけるMLLMのパフォーマンスの大幅な改善を示しており、提案されたアプローチがマルチモーダル推論とグラウンディングの強化に効果的であることを示唆しています。
重要ポイント
参照
“これらの制限に対処するために、クエリに沿ったオーディオビジュアル知識をMMKGから取得し、MLLMの推論の深さと回答の忠実度を向上させる、マルチホップマルチモーダル知識グラフ強化RAGであるM$^3$KG-RAGを提案します。”