RSAgent: 用于文本引导分割的 Agentic MLLM

Paper#MLLM, Computer Vision, Segmentation🔬 Research|分析: 2026年1月3日 17:05
发布: 2025年12月30日 06:50
1分で読める
ArXiv

分析

本文介绍了 RSAgent,一个用于改进文本引导对象分割的 agentic MLLM。关键创新在于多轮方法,通过工具调用和反馈实现分割掩码的迭代细化。这解决了单次方法的局限性,实现了验证、重新聚焦和细化。本文的意义在于其对具有挑战性的计算机视觉任务采用了新颖的基于 agent 的方法,并在多个基准测试中展示了最先进的性能。
引用 / 来源
查看原文
"RSAgent achieves a zero-shot performance of 66.5% gIoU on ReasonSeg test, improving over Seg-Zero-7B by 9%, and reaches 81.5% cIoU on RefCOCOg, demonstrating state-of-the-art performance."
A
ArXiv2025年12月30日 06:50
* 根据版权法第32条进行合法引用。