注意層からの敵対的サンプルによるLLM評価

Paper#llm🔬 Research|分析: 2026年1月3日 16:58
公開: 2025年12月29日 19:59
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)の注意層を利用して敵対的サンプルを生成する新しい方法を紹介しています。このアプローチは、モデル内のトークン予測を利用して、もっともらしく、モデルの生成プロセスと一貫性のある摂動を作成します。これは、プロンプトベースまたは勾配ベースの方法から脱却し、敵対的攻撃に対する新しい視点を提供するという点で、重要な貢献です。内部モデル表現に焦点を当てることで、LLMベースのシステムの信頼性を評価および改善するために不可欠な、より効果的で堅牢な敵対的サンプルにつながる可能性があります。ArgQualityデータセットを使用したLLaMA-3.1-Instruct-8Bでの評価は関連性があり、具体的な結果を提供しています。
引用・出典
原文を見る
"The results show that attention-based adversarial examples lead to measurable drops in evaluation performance while remaining semantically similar to the original inputs."
A
ArXiv2025年12月29日 19:59
* 著作権法第32条に基づく適法な引用です。