SHRP:効率的なエンコーダ圧縮のための特化されたヘッドルーティングとプルーニング
分析
この論文では、冗長な注意ヘッドをプルーニングすることにより、Transformerエンコーダを圧縮する新しいアプローチであるSHRPを紹介しています。各ヘッドを独立したエキスパートとして扱うExpert Attentionの中核となるアイデアは有望です。動的ルーティングと決定論的プルーニングのための統一されたTop-1使用量駆動メカニズムは、重要な貢献です。BERT-baseでの実験結果は説得力があり、精度の低下を最小限に抑えながら、パラメータの大幅な削減を示しています。ただし、論文では、計算コストの削減に関するより詳細な分析と、他の圧縮技術との比較を行うと、より有益になります。SHRPのさまざまなTransformerアーキテクチャおよびデータセットへの一般化可能性に関するさらなる調査も、調査結果を強化するでしょう。
重要ポイント
参照
“SHRPは、元のモデルの精度の93%を達成しながら、パラメータを48%削減します。”