Research#llm🔬 Research分析: 2025年12月25日 01:02

用于频繁模型更新的每轴权重增量

发布:2025年12月24日 05:00
1分で読める
ArXiv ML

分析

本文介绍了一种新颖的方法,将微调的大型语言模型 (LLM) 权重表示为压缩增量,特别是具有每轴 FP16 缩放因子的 1 位增量方案。该方法旨在解决与服务大量任务专用 LLM 变体相关的大检查点大小和冷启动延迟的挑战。关键创新在于比标量替代方案更准确地捕获跨维度的权重变化,从而提高重建质量。简化的加载器设计进一步优化了冷启动延迟和存储开销。该方法的即插即用特性、最小的校准数据要求以及推理效率的维持使其成为频繁模型更新的实用解决方案。实验设置和源代码的可用性增强了可重复性和进一步的研究。

引用

我们提出了一种简单的 1 位增量方案,该方案仅存储权重差异的符号以及从小型校准集学习的轻量级每轴(行/列)FP16 缩放因子。