Research Paper#Artificial Intelligence, Formal Verification, Category Theory🔬 Research分析: 2026年1月3日 08:41
LeanCat: Lean 中形式范畴论的基准
分析
本文介绍了 LeanCat,这是一个用于 Lean 中形式范畴论的基准套件,旨在评估大型语言模型 (LLM) 在抽象和库辅助推理方面的能力,这对于现代数学至关重要。它通过关注范畴论(一种用于数学结构的统一语言)来解决现有基准的局限性。该基准侧重于结构性和接口级推理,使其成为评估人工智能在形式定理证明方面进展的宝贵工具。
要点
引用
“最佳模型在 pass@1 时解决了 8.25% 的任务(Easy/Medium/High 分别为 32.50%/4.17%/0.00%),在 pass@4 时解决了 12.00% 的任务(50.00%/4.76%/0.00%)。”