GeoBench:通过分层评估重新思考多模态几何问题求解

Paper#LLM🔬 Research|分析: 2026年1月3日 16:49
发布: 2025年12月30日 09:56
1分で読める
ArXiv

分析

本文介绍了 GeoBench,这是一个新的基准,旨在解决现有视觉语言模型 (VLM) 几何推理评估中的局限性。它侧重于分层评估,超越了简单的答案准确性,以评估推理过程。该基准的设计,包括经过正式验证的任务和对不同推理级别的关注,是一项重大贡献。关于子目标分解、无关前提过滤以及 Chain-of-Thought 提示的意外影响的发现,为该领域的未来研究提供了宝贵的见解。
引用 / 来源
查看原文
"Key findings demonstrate that sub-goal decomposition and irrelevant premise filtering critically influence final problem-solving accuracy, whereas Chain-of-Thought prompting unexpectedly degrades performance in some tasks."
A
ArXiv2025年12月30日 09:56
* 根据版权法第32条进行合法引用。