GeoBench:階層的評価による幾何問題解決の再考
分析
本論文は、幾何学的推論におけるビジョン言語モデル(VLM)の既存の評価における限界に対処するために設計された新しいベンチマーク、GeoBenchを紹介しています。単純な回答の正確性から、推論プロセスを評価することに焦点を当てた階層的評価に重点を置いています。正式に検証されたタスクと、さまざまな推論レベルに焦点を当てたベンチマークの設計は、重要な貢献です。サブゴール分解、無関係な前提のフィルタリング、およびChain-of-Thoughtプロンプトの予期しない影響に関する発見は、この分野の将来の研究に貴重な洞察を提供します。