分析
本文介绍了一种新方法,通过利用大型语言模型(LLM)的注意力层来生成对抗样本。该方法利用模型内部的token预测来创建既合理又与模型生成过程一致的扰动。这是一个重要的贡献,因为它提供了一种新的对抗攻击视角,摆脱了基于提示或基于梯度的攻击方法。 关注内部模型表示可以产生更有效和鲁棒的对抗样本,这对于评估和改进基于LLM的系统的可靠性至关重要。使用ArgQuality数据集和LLaMA-3.1-Instruct-8B进行的评估是相关的,并提供了具体的结果。
要点
引用
“结果表明,基于注意力的对抗样本会导致评估性能的可衡量下降,同时保持与原始输入语义相似。”