CricBench:用于评估 LLM 在板球分析中的基准

发布:2025年12月26日 05:59
1分で読める
ArXiv

分析

本文介绍了 CricBench,这是一个用于评估大型语言模型 (LLM) 在板球分析领域中的专业基准。它解决了 LLM 在处理体育分析中特定领域细微差别、复杂模式变化和多语言需求方面的能力差距。基准的创建,包括“黄金标准”数据集和多语言支持(英语和印地语),是一项关键贡献。对最先进模型的评估表明,在通用基准上的表现并不能转化为在专业领域的成功,并且代码混合的印地语查询可以与英语一样好或更好,挑战了关于提示语言的假设。

引用

开放权重的推理模型 DeepSeek R1 实现了最先进的性能 (50.6%),超越了 Claude 3.7 Sonnet (47.7%) 和 GPT-4o (33.7%) 等专有巨头,但当从通用基准 (BIRD) 转移到 CricBench 时,它仍然表现出显着的准确性下降。