Paper#llm🔬 Research分析: 2026年1月3日 19:27

HiSciBench:用于科学智能的层次化基准

发布:2025年12月28日 12:08
1分で読める
ArXiv

分析

本文介绍了HiSciBench,这是一个新的基准,旨在评估大型语言模型(LLM)和多模态模型的科学推理能力。它通过提供一个分层和多学科的框架来解决现有基准的局限性,该框架反映了从基本素养到科学发现的完整科学工作流程。该基准的全面性,包括多模态输入和跨语言评估,可以详细诊断模型在科学推理不同阶段的能力。对领先模型的评估揭示了显著的性能差距,突出了实现真正科学智能的挑战,并为未来的模型开发提供了可操作的见解。该基准的公开发布将促进该领域的进一步研究。

引用

虽然模型在基本素养任务上达到了高达69%的准确率,但在发现级别的挑战中,性能急剧下降到25%。