CricBench：用于评估 LLM 在板球分析中的基准

Research Paper #Large Language Models, Cricket Analytics, Benchmarking, Multilingual NLP 🔬 Research|分析: 2026年1月3日 23:56•

发布: 2025年12月26日 05:59

•

1分で読める

•ArXiv

分析

本文介绍了 CricBench，这是一个用于评估大型语言模型 (LLM) 在板球分析领域中的专业基准。它解决了 LLM 在处理体育分析中特定领域细微差别、复杂模式变化和多语言需求方面的能力差距。基准的创建，包括“黄金标准”数据集和多语言支持（英语和印地语），是一项关键贡献。对最先进模型的评估表明，在通用基准上的表现并不能转化为在专业领域的成功，并且代码混合的印地语查询可以与英语一样好或更好，挑战了关于提示语言的假设。

要点

引用 / 来源

查看原文

"The open-weights reasoning model DeepSeek R1 achieves state-of-the-art performance (50.6%), surpassing proprietary giants like Claude 3.7 Sonnet (47.7%) and GPT-4o (33.7%), it still exhibits a significant accuracy drop when moving from general benchmarks (BIRD) to CricBench."

ArXiv2025年12月26日 05:59

* 根据版权法第32条进行合法引用。

较旧

A Communication-Efficient Distributed Algorithm for Learning with Heterogeneous and Structurally Incomplete Multi-Site Data

较新

Beyond Single Bugs: Benchmarking Large Language Models for Multi-Vulnerability Detection

CricBench：用于评估 LLM 在板球分析中的基准

分析

要点

相关分析

SpaceTimePilot：时空控制的生成视频渲染

量子混沌哈密顿量演化下的随机性生成

GaMO：几何感知扩散用于稀疏视角3D重建

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题