RSAgent: 用于文本引导分割的 Agentic MLLM
Paper#MLLM, Computer Vision, Segmentation🔬 Research|分析: 2026年1月3日 17:05•
发布: 2025年12月30日 06:50
•1分で読める
•ArXiv分析
本文介绍了 RSAgent,一个用于改进文本引导对象分割的 agentic MLLM。关键创新在于多轮方法,通过工具调用和反馈实现分割掩码的迭代细化。这解决了单次方法的局限性,实现了验证、重新聚焦和细化。本文的意义在于其对具有挑战性的计算机视觉任务采用了新颖的基于 agent 的方法,并在多个基准测试中展示了最先进的性能。