RSAgent: テキスト誘導セグメンテーションのためのエージェント型MLLM

Paper#MLLM, Computer Vision, Segmentation🔬 Research|分析: 2026年1月3日 17:05
公開: 2025年12月30日 06:50
1分で読める
ArXiv

分析

この論文は、テキスト誘導オブジェクトセグメンテーションを改善するために設計されたエージェント型MLLMであるRSAgentを紹介しています。主な革新は、ツール呼び出しとフィードバックを通じてセグメンテーションマスクを反復的に洗練することを可能にするマルチターンアプローチです。これにより、検証、再フォーカス、および洗練が可能になり、ワンショットメソッドの制限に対処します。この論文の重要性は、困難なコンピュータビジョンタスクに対する新しいエージェントベースのアプローチにあり、複数のベンチマークで最先端のパフォーマンスを示しています。
引用・出典
原文を見る
"RSAgent achieves a zero-shot performance of 66.5% gIoU on ReasonSeg test, improving over Seg-Zero-7B by 9%, and reaches 81.5% cIoU on RefCOCOg, demonstrating state-of-the-art performance."
A
ArXiv2025年12月30日 06:50
* 著作権法第32条に基づく適法な引用です。