用更少Token攻击视觉语言模型

Paper#VLM Security, Adversarial Attacks🔬 Research|分析: 2026年1月3日 16:38
发布: 2025年12月26日 01:01
1分で読める
ArXiv

分析

这篇论文强调了视觉语言模型(VLM)中的一个关键漏洞。它表明,通过将对抗性攻击集中于一小部分高熵token(关键决策点),攻击者可以显著降低模型性能并诱发有害输出。这种有针对性的方法比以前的方法更有效,只需要更少的扰动,同时在语义退化和有害输出生成方面取得了可比甚至更好的结果。该论文的发现还揭示了这些攻击在不同VLM架构之间具有令人担忧的转移性,这表明了当前VLM安全机制中的一个根本性弱点。
引用 / 来源
查看原文
"By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk."
A
ArXiv2025年12月26日 01:01
* 根据版权法第32条进行合法引用。