LLMのチェックポイント/リストアI/Oの最適化

公開:2025年12月30日 23:21
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)のトレーニングと推論における重要なI/Oボトルネック、特にチェックポイント/リストア操作に焦点を当てています。ストレージスタック全体でのデータ移動の量、多様性、速度を管理することの課題を強調しています。この研究では、liburingのようなカーネルアクセラレーテッドI/Oライブラリを使用してパフォーマンスを向上させることを調査し、さまざまなI/O戦略のトレードオフを定量化するためのマイクロベンチマークを提供しています。この発見は、LLMチェックポイントにおける大幅なパフォーマンス向上、ひいてはより高速なトレーニングと推論時間の可能性を示すため、重要です。

参照

この論文は、非統合の小さなバッファ操作がスループットを大幅に低下させる一方、ファイルシステム対応の集約が帯域幅を回復し、メタデータのオーバーヘッドを削減することを発見しました。彼らのアプローチは、既存のLLMチェックポイントエンジンと比較して、最大3.9倍と7.6倍高い書き込みスループットを達成しています。