GeoBench:階層的評価による幾何問題解決の再考

Paper#LLM🔬 Research|分析: 2026年1月3日 16:49
公開: 2025年12月30日 09:56
1分で読める
ArXiv

分析

本論文は、幾何学的推論におけるビジョン言語モデル(VLM)の既存の評価における限界に対処するために設計された新しいベンチマーク、GeoBenchを紹介しています。単純な回答の正確性から、推論プロセスを評価することに焦点を当てた階層的評価に重点を置いています。正式に検証されたタスクと、さまざまな推論レベルに焦点を当てたベンチマークの設計は、重要な貢献です。サブゴール分解、無関係な前提のフィルタリング、およびChain-of-Thoughtプロンプトの予期しない影響に関する発見は、この分野の将来の研究に貴重な洞察を提供します。
引用・出典
原文を見る
"Key findings demonstrate that sub-goal decomposition and irrelevant premise filtering critically influence final problem-solving accuracy, whereas Chain-of-Thought prompting unexpectedly degrades performance in some tasks."
A
ArXiv2025年12月30日 09:56
* 著作権法第32条に基づく適法な引用です。