RSAgent: テキスト誘導セグメンテーションのためのエージェント型MLLM
Paper#MLLM, Computer Vision, Segmentation🔬 Research|分析: 2026年1月3日 17:05•
公開: 2025年12月30日 06:50
•1分で読める
•ArXiv分析
この論文は、テキスト誘導オブジェクトセグメンテーションを改善するために設計されたエージェント型MLLMであるRSAgentを紹介しています。主な革新は、ツール呼び出しとフィードバックを通じてセグメンテーションマスクを反復的に洗練することを可能にするマルチターンアプローチです。これにより、検証、再フォーカス、および洗練が可能になり、ワンショットメソッドの制限に対処します。この論文の重要性は、困難なコンピュータビジョンタスクに対する新しいエージェントベースのアプローチにあり、複数のベンチマークで最先端のパフォーマンスを示しています。