Splitwise: Lyapunov最適化DRLを用いたエッジクラウドLLM推論
分析
本論文は、大規模言語モデル(LLM)をエッジデバイスにデプロイする際の課題、すなわちレイテンシ、消費電力、精度をバランスさせる問題に取り組んでいます。Splitwiseという、Lyapunov最適化を用いた深層強化学習(DRL)による、エッジとクラウドのリソース間でのLLMの動的な分割を行う新しいフレームワークを提案しています。このアプローチは、静的な分割方法と比較して、よりきめ細かく適応的なソリューションを提供する点で重要であり、特に帯域幅が変動する環境において有効です。Lyapunov最適化の使用は、キューの安定性と堅牢性を保証し、これは実世界のデプロイメントにとって不可欠です。実験結果は、レイテンシとエネルギー効率の大幅な改善を示しています。