Llama-3における幅剪定:事実知識の削減による指示追従の強化
分析
この論文は、最大絶対重み(MAW)基準によってガイドされる幅剪定が、事実知識を必要とするタスクのパフォーマンスを低下させながら、指示追従能力を選択的に向上させることを実証することにより、モデル剪定の一般的な理解に異議を唱えています。これは、剪定が知識をトレードオフして、改善されたアライメントと真実性を実現するために使用できることを示唆しており、モデルの最適化とアライメントに関する新しい視点を提供しています。
重要ポイント
参照
“指示追従能力は大幅に向上します(Llama-3.2-1Bおよび3Bモデルの場合、IFEvalで+46%から+75%)。”