頻繁なモデル更新のための軸ごとの重みデルタ

Research#llm🔬 Research|分析: 2025年12月25日 01:02
公開: 2025年12月24日 05:00
1分で読める
ArXiv ML

分析

この論文では、ファインチューニングされた大規模言語モデル(LLM)の重みを圧縮されたデルタとして表現する新しいアプローチを紹介しています。具体的には、軸ごとのFP16スケーリングファクターを持つ1ビットデルタスキームです。この方法は、多数のタスク特化型LLMバリアントの提供に関連する、大きなチェックポイントサイズとコールドスタートのレイテンシという課題に対処することを目的としています。主な革新は、スカラーの代替手段よりも次元間の重みの変動をより正確に捉え、再構成品質を向上させることです。合理化されたローダー設計は、コールドスタートのレイテンシとストレージオーバーヘッドをさらに最適化します。この方法のドロップイン性、最小限のキャリブレーションデータ要件、および推論効率の維持により、頻繁なモデル更新のための実用的なソリューションになります。実験設定とソースコードの可用性は、再現性とさらなる研究を促進します。
引用・出典
原文を見る
"We propose a simple 1-bit delta scheme that stores only the sign of the weight difference together with lightweight per-axis (row/column) FP16 scaling factors, learned from a small calibration set."
A
ArXiv ML2025年12月24日 05:00
* 著作権法第32条に基づく適法な引用です。