注意層からの敵対的サンプルによるLLM評価
分析
この論文は、大規模言語モデル(LLM)の注意層を利用して敵対的サンプルを生成する新しい方法を紹介しています。このアプローチは、モデル内のトークン予測を利用して、もっともらしく、モデルの生成プロセスと一貫性のある摂動を作成します。これは、プロンプトベースまたは勾配ベースの方法から脱却し、敵対的攻撃に対する新しい視点を提供するという点で、重要な貢献です。内部モデル表現に焦点を当てることで、LLMベースのシステムの信頼性を評価および改善するために不可欠な、より効果的で堅牢な敵対的サンプルにつながる可能性があります。ArgQualityデータセットを使用したLLaMA-3.1-Instruct-8Bでの評価は関連性があり、具体的な結果を提供しています。