优化地理分布的大型语言模型推理的资源分配

发布:2025年12月26日 06:13
1分で読める
ArXiv

分析

本文解决了优化大型语言模型(LLM)分布式推理资源分配的关键问题。由于LLM计算成本高昂,将工作负载分布在地理位置不同的服务器上是一种很有前景的降低成本和提高可访问性的方法,因此这项研究意义重大。本文提供了系统研究、性能模型、优化算法(包括混合整数线性规划方法)和仅CPU的模拟器。这项工作对于使LLM更实用和更易于访问至关重要。

引用

本文提出了“经过实验验证的性能模型,可以预测在给定块放置和请求路由决策下的推理性能”。