RxnBench:评估大型语言模型在科学文献中化学反应理解方面的表现

Paper#llm🔬 Research|分析: 2026年1月3日 16:03
发布: 2025年12月29日 16:05
1分で読める
ArXiv

分析

本文介绍了RxnBench,这是一个新的基准,用于评估多模态大型语言模型 (MLLMs) 理解科学文献中化学反应的能力。它强调了当前 MLLMs 在进行深度化学推理和结构识别方面的重大差距,尽管它们在提取显式文本方面表现出色。该基准的多层设计,包括 Single-Figure QA 和 Full-Document QA,提供了一个严格的评估框架。研究结果强调了改进特定领域视觉编码器和推理引擎的必要性,以推动化学领域的 AI 发展。
引用 / 来源
查看原文
"Models excel at extracting explicit text, but struggle with deep chemical logic and precise structural recognition."
A
ArXiv2025年12月29日 16:05
* 根据版权法第32条进行合法引用。