用于高效LLM推理的FPGA协同设计,结合稀疏性和量化
分析
本文解决了在资源受限环境中部署大型语言模型(LLM)的挑战,提出了一种使用FPGA的硬件-软件协同设计方法。核心贡献在于自动化框架,该框架结合了权重剪枝(N:M稀疏性)和低比特量化,以减少内存占用并加速推理。与密集型GPU基线相比,本文展示了显著的加速和延迟降低,突出了所提出方法的有效性。FPGA加速器提供了支持各种稀疏模式的灵活性。
要点
引用 / 来源
查看原文"Utilizing 2:4 sparsity combined with quantization on $4096 imes 4096$ matrices, our approach achieves a reduction of up to $4\times$ in weight storage and a $1.71\times$ speedup in matrix multiplication, yielding a $1.29\times$ end-to-end latency reduction compared to dense GPU baselines."