阅读还是忽略？视觉语言模型中针对排版攻击的鲁棒性和文本识别的统一基准

Research #llm 🔬 Research|分析: 2026年1月4日 10:31•

发布: 2025年12月10日 08:34

•

1分で読める

分析

本文介绍了一个统一的基准，用于评估视觉语言模型（VLM）对排版攻击的鲁棒性及其文本识别能力。随着VLM变得越来越普遍，并在安全敏感的应用中使用，这是一个关键的研究领域。该基准可能允许研究人员比较不同的模型并识别弱点。关注鲁棒性和识别都很重要，因为一个模型需要在两个方面都表现良好才能真正可靠。

引用 / 来源

"Read or Ignore? A Unified Benchmark for Typographic-Attack Robustness and Text Recognition in Vision-Language Models"

ArXiv2025年12月10日 08:34

* 根据版权法第32条进行合法引用。

Self-organizing maps for water quality assessment in reservoirs and lakes: A systematic literature review

Mistral Small 3