LLMにおけるデータフリーな自己注意層の枝刈り
分析
この論文では、大規模言語モデル(LLM)の自己注意層を、トレーニングデータを必要とせずに枝刈りする新しい手法であるGate-Normを紹介しています。中心となるアイデアは、「注意抑制仮説」を中心に展開しており、一部の注意層は事前トレーニング中に冗長になることを示唆しています。Gate-Normは、クエリとキーの結合に基づいて注意サブレイヤーをランク付けし、結合が最も少ないものを削除します。この方法は非常に高速で、13BパラメータのLLaMAモデルを1秒未満で枝刈りできます。結果は、8〜16個の注意サブレイヤーを枝刈りすると、精度の低下を最小限に抑えながら、推論スループットが大幅に向上することを示しています。Gate-Normのデータフリーな性質と速度は、実用的なLLM圧縮にとって有望なアプローチです。データ駆動型の手法との比較は、その効率を強調しています。