HiSciBench：用于科学智能的层次化基准

Paper #llm 🔬 Research|分析: 2026年1月3日 19:27•

发布: 2025年12月28日 12:08

•

1分で読める

分析

本文介绍了HiSciBench，这是一个新的基准，旨在评估大型语言模型（LLM）和多模态模型的科学推理能力。它通过提供一个分层和多学科的框架来解决现有基准的局限性，该框架反映了从基本素养到科学发现的完整科学工作流程。该基准的全面性，包括多模态输入和跨语言评估，可以详细诊断模型在科学推理不同阶段的能力。对领先模型的评估揭示了显著的性能差距，突出了实现真正科学智能的挑战，并为未来的模型开发提供了可操作的见解。该基准的公开发布将促进该领域的进一步研究。

关键要点

引用 / 来源

查看原文

"While models achieve up to 69% accuracy on basic literacy tasks, performance declines sharply to 25% on discovery-level challenges."

ArXiv2025年12月28日 12:08

* 根据版权法第32条进行合法引用。

较旧

A Neural Network-Based Real-time Casing Collar Recognition System for Downhole Instruments

较新

Federated Multi-Task Clustering

HiSciBench：用于科学智能的层次化基准

分析

关键要点

相关分析

从未对齐图像即时进行3D场景编辑

基于选择策略的协调人形机器人操作

用于未来预测的LLM预测

📬 Get AI News Delivered

按类别浏览

热门话题

📬 Get AI News Delivered

按类别浏览

热门话题