LLMにおけるデータフリーな自己注意層の枝刈り

Research#llm🔬 Research|分析: 2025年12月25日 09:28
公開: 2025年12月25日 05:00
1分で読める
ArXiv ML

分析

この論文では、大規模言語モデル(LLM)の自己注意層を、トレーニングデータを必要とせずに枝刈りする新しい手法であるGate-Normを紹介しています。中心となるアイデアは、「注意抑制仮説」を中心に展開しており、一部の注意層は事前トレーニング中に冗長になることを示唆しています。Gate-Normは、クエリとキーの結合に基づいて注意サブレイヤーをランク付けし、結合が最も少ないものを削除します。この方法は非常に高速で、13BパラメータのLLaMAモデルを1秒未満で枝刈りできます。結果は、8〜16個の注意サブレイヤーを枝刈りすると、精度の低下を最小限に抑えながら、推論スループットが大幅に向上することを示しています。Gate-Normのデータフリーな性質と速度は、実用的なLLM圧縮にとって有望なアプローチです。データ駆動型の手法との比較は、その効率を強調しています。
引用・出典
原文を見る
"Pruning $8$--$16$ attention sublayers yields up to $1.30\times$ higher inference throughput while keeping average zero-shot accuracy within $2\%$ of the unpruned baseline."
A
ArXiv ML2025年12月25日 05:00
* 著作権法第32条に基づく適法な引用です。