DrawingBench:通过基于鼠标绘图任务评估大型语言模型的空间推理和UI交互能力Research#LLM🔬 Research|分析: 2026年1月10日 13:44•发布: 2025年12月1日 01:18•1分で読める•ArXiv分析这项研究引入了一个新的基准测试 DrawingBench,重点评估大型语言模型的空间推理和 UI 交互能力。 使用基于鼠标的绘图任务提供了一种独特且具有挑战性的方法来评估这些能力。要点•DrawingBench 为评估 LLM 的空间推理提供了一个新的基准。•该基准使用基于鼠标的绘图任务,提供了一种实用的评估方法。•这项研究有助于更好地理解 LLM 的 UI 交互能力。引用 / 来源查看原文"DrawingBench evaluates spatial reasoning and UI interaction capabilities through mouse-based drawing tasks."AArXiv2025年12月1日 01:18* 根据版权法第32条进行合法引用。较旧MindFuse: Enhancing GenAI Explainability for Marketing Strategy较新TinyML & Reinforcement Learning: Optimizing Greenhouse Lighting for Energy Efficiency相关分析Research人类AI检测2026年1月4日 05:47Research侧重于实现的深度学习书籍2026年1月4日 05:49Research个性化 Gemini2026年1月4日 05:49来源: ArXiv