利用注意力层生成对抗样本用于LLM评估

Paper#llm🔬 Research|分析: 2026年1月3日 16:58
发布: 2025年12月29日 19:59
1分で読める
ArXiv

分析

本文介绍了一种新方法,通过利用大型语言模型(LLM)的注意力层来生成对抗样本。该方法利用模型内部的token预测来创建既合理又与模型生成过程一致的扰动。这是一个重要的贡献,因为它提供了一种新的对抗攻击视角,摆脱了基于提示或基于梯度的攻击方法。 关注内部模型表示可以产生更有效和鲁棒的对抗样本,这对于评估和改进基于LLM的系统的可靠性至关重要。使用ArgQuality数据集和LLaMA-3.1-Instruct-8B进行的评估是相关的,并提供了具体的结果。
引用 / 来源
查看原文
"The results show that attention-based adversarial examples lead to measurable drops in evaluation performance while remaining semantically similar to the original inputs."
A
ArXiv2025年12月29日 19:59
* 根据版权法第32条进行合法引用。