阅读还是忽略?视觉语言模型中针对排版攻击的鲁棒性和文本识别的统一基准

Research#llm🔬 Research|分析: 2026年1月4日 10:31
发布: 2025年12月10日 08:34
1分で読める
ArXiv

分析

本文介绍了一个统一的基准,用于评估视觉语言模型(VLM)对排版攻击的鲁棒性及其文本识别能力。 随着VLM变得越来越普遍,并在安全敏感的应用中使用,这是一个关键的研究领域。 该基准可能允许研究人员比较不同的模型并识别弱点。 关注鲁棒性和识别都很重要,因为一个模型需要在两个方面都表现良好才能真正可靠。
引用 / 来源
查看原文
"Read or Ignore? A Unified Benchmark for Typographic-Attack Robustness and Text Recognition in Vision-Language Models"
A
ArXiv2025年12月10日 08:34
* 根据版权法第32条进行合法引用。