DrawingBench:通过基于鼠标绘图任务评估大型语言模型的空间推理和UI交互能力

Research#LLM🔬 Research|分析: 2026年1月10日 13:44
发布: 2025年12月1日 01:18
1分で読める
ArXiv

分析

这项研究引入了一个新的基准测试 DrawingBench,重点评估大型语言模型的空间推理和 UI 交互能力。 使用基于鼠标的绘图任务提供了一种独特且具有挑战性的方法来评估这些能力。
引用 / 来源
查看原文
"DrawingBench evaluates spatial reasoning and UI interaction capabilities through mouse-based drawing tasks."
A
ArXiv2025年12月1日 01:18
* 根据版权法第32条进行合法引用。