少ないトークンでビジョン-言語モデルを攻撃
Paper#VLM Security, Adversarial Attacks🔬 Research|分析: 2026年1月3日 16:38•
公開: 2025年12月26日 01:01
•1分で読める
•ArXiv分析
この論文は、ビジョン-言語モデル(VLM)における重要な脆弱性を明らかにしています。敵対的攻撃を、高エントロピーのトークン(重要な決定ポイント)の小さなサブセットに集中させることで、攻撃者はモデルのパフォーマンスを大幅に低下させ、有害な出力を誘発できることを示しています。このターゲットを絞ったアプローチは、以前の方法よりも効率的であり、少ない摂動で、意味的劣化と有害な出力生成に関して同等以上の結果を達成します。この論文の発見はまた、これらの攻撃がさまざまなVLMアーキテクチャ間で高い転送可能性を持つことを明らかにしており、現在のVLM安全メカニズムにおける根本的な弱点を示唆しています。
重要ポイント
引用・出典
原文を見る"By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk."