SenseNova-MARS:基于强化学习的工具使用Agent推理

发布:2025年12月30日 16:31
1分で読める
ArXiv

分析

本文介绍了SenseNova-MARS,一个新颖的框架,通过agent推理和工具使用能力增强了视觉语言模型(VLMs),特别侧重于整合搜索和图像处理工具。使用强化学习(RL)和引入HR-MMSearch基准是关键贡献。论文声称在某些基准测试中达到了最先进的性能,甚至超越了专有模型,这非常重要。代码、模型和数据集的发布进一步促进了该领域的可重复性和研究。

引用

SenseNova-MARS 在开源搜索和细粒度图像理解基准测试中取得了最先进的性能。具体来说,在面向搜索的基准测试中,SenseNova-MARS-8B 在 MMSearch 上得分为 67.84,在 HR-MMSearch 上得分为 41.64,超越了 Gemini-3-Flash 和 GPT-5 等专有模型。