我们准备好进行多图像推理了吗?发布VHs:Visual Haystacks基准!
分析
本文介绍了一个新的基准,Visual Haystacks (VHs),旨在评估大型多模态模型 (LMM) 跨多个图像进行推理的能力。它强调了传统视觉问答 (VQA) 系统的局限性,这些系统通常仅限于单图像分析。文章认为,现实世界的应用,如医学图像分析、森林砍伐监测和城市变化测绘,需要处理和推理视觉数据集合的能力。VHs 旨在通过提供一个具有挑战性的基准来评估 MIQA(多图像问答)能力,从而弥补这一差距。关注长上下文视觉信息对于推动人工智能向 AGI 发展至关重要。
引用
“人类擅长处理大量的视觉信息,这是一项对于实现通用人工智能 (AGI) 至关重要的技能。”