LLMにおけるデータフリーな自己注意層の枝刈り

Research #llm 🔬 Research|分析: 2025年12月25日 09:28•

公開: 2025年12月25日 05:00

•

1分で読める

分析

この論文では、大規模言語モデル（LLM）の自己注意層を、トレーニングデータを必要とせずに枝刈りする新しい手法であるGate-Normを紹介しています。中心となるアイデアは、「注意抑制仮説」を中心に展開しており、一部の注意層は事前トレーニング中に冗長になることを示唆しています。Gate-Normは、クエリとキーの結合に基づいて注意サブレイヤーをランク付けし、結合が最も少ないものを削除します。この方法は非常に高速で、13BパラメータのLLaMAモデルを1秒未満で枝刈りできます。結果は、8〜16個の注意サブレイヤーを枝刈りすると、精度の低下を最小限に抑えながら、推論スループットが大幅に向上することを示しています。Gate-Normのデータフリーな性質と速度は、実用的なLLM圧縮にとって有望なアプローチです。データ駆動型の手法との比較は、その効率を強調しています。

重要ポイント

引用・出典

原文を見る

"Pruning $8$--$16$ attention sublayers yields up to $1.30\times$ higher inference throughput while keeping average zero-shot accuracy within $2\%$ of the unpruned baseline."

ArXiv ML2025年12月25日 05:00

* 著作権法第32条に基づく適法な引用です。

古い記事

SHRP: Specialized Head Routing and Pruning for Efficient Encoder Compression

新しい記事

Forecasting N-Body Dynamics: Neural ODEs vs. Universal Differential Equations

LLMにおけるデータフリーな自己注意層の枝刈り

分析

重要ポイント

関連分析

人間によるAI検出

深層学習の実装に焦点を当てた書籍

Geminiのパーソナライズ

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック