機能認識ニューロングルーピングによるLLM剪定の汎化性能向上
分析
本論文は、大規模言語モデル(LLM)の事後訓練構造化剪定における汎化性能の限界という課題に取り組んでいます。キャリブレーションバイアスを軽減し、ダウンストリームタスクの精度を向上させるための新しいフレームワーク、Function-Aware Neuron Grouping(FANG)を提案しています。その中核となるアイデアは、ニューロンをその機能的な役割に基づいてグループ化し、個別に剪定することであり、グループの機能と相関するトークンに高い重みを与えます。機能的な複雑さに基づいた適応的なスパース性の割り当ても重要な貢献です。結果は既存の方法よりも改善されたパフォーマンスを示しており、これはLLM圧縮の分野への貴重な貢献となっています。
重要ポイント
参照
“FANGは、30%と40%のスパース性において、FLAPとOBCを平均精度で1.5%~8.5%上回っています。”