用更少Token攻击视觉语言模型
Paper#VLM Security, Adversarial Attacks🔬 Research|分析: 2026年1月3日 16:38•
发布: 2025年12月26日 01:01
•1分で読める
•ArXiv分析
这篇论文强调了视觉语言模型(VLM)中的一个关键漏洞。它表明,通过将对抗性攻击集中于一小部分高熵token(关键决策点),攻击者可以显著降低模型性能并诱发有害输出。这种有针对性的方法比以前的方法更有效,只需要更少的扰动,同时在语义退化和有害输出生成方面取得了可比甚至更好的结果。该论文的发现还揭示了这些攻击在不同VLM架构之间具有令人担忧的转移性,这表明了当前VLM安全机制中的一个根本性弱点。
要点
引用 / 来源
查看原文"By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk."