Data-Free Pruning of Self-Attention Layers in LLMs

Research#llm🔬 Research|分析: 2025年12月25日 09:28
发布: 2025年12月25日 05:00
1分で読める
ArXiv ML

分析

This paper introduces Gate-Norm, a novel method for pruning self-attention layers in large language models (LLMs) without requiring any training data. The core idea revolves around the \

要点

    引用 / 来源
    查看原文
    "Pruning $8$--$16$ attention sublayers yields up to $1.30\times$ higher inference throughput while keeping average zero-shot accuracy within $2\%$ of the unpruned baseline."
    A
    ArXiv ML2025年12月25日 05:00
    * 根据版权法第32条进行合法引用。