Argus: トークン認識分散LLM推論最適化
分析
この論文は、動的で異種混合のエッジクラウド環境におけるLLM推論の最適化という重要な課題に取り組んでいます。中核的な貢献は、出力トークン長の変動とデバイスの能力を考慮したトークン認識アプローチにあります。 Length-Aware Semantics (LAS) モジュールと Lyapunov-guided Offloading Optimization (LOO) モジュール、および Iterative Offloading Algorithm with Damping and Congestion Control (IODCC) は、LLM推論の効率とQuality-of-Experienceを向上させるための、革新的で包括的なソリューションを表しています。動的環境と異種混合システムへの焦点は、実世界アプリケーションにおけるLLMの導入が増加していることを考えると、特に重要です。