Research Paper#Vision-Language Models, Agentic Reasoning, Reinforcement Learning🔬 Research分析: 2026年1月3日 15:38
SenseNova-MARS:基于强化学习的工具使用Agent推理
分析
本文介绍了SenseNova-MARS,一个新颖的框架,通过agent推理和工具使用能力增强了视觉语言模型(VLMs),特别侧重于整合搜索和图像处理工具。使用强化学习(RL)和引入HR-MMSearch基准是关键贡献。论文声称在某些基准测试中达到了最先进的性能,甚至超越了专有模型,这非常重要。代码、模型和数据集的发布进一步促进了该领域的可重复性和研究。
要点
引用
“SenseNova-MARS 在开源搜索和细粒度图像理解基准测试中取得了最先进的性能。具体来说,在面向搜索的基准测试中,SenseNova-MARS-8B 在 MMSearch 上得分为 67.84,在 HR-MMSearch 上得分为 41.64,超越了 Gemini-3-Flash 和 GPT-5 等专有模型。”