优化地理分布的大型语言模型推理的资源分配

Research Paper#Large Language Models (LLMs), Distributed Systems, Resource Allocation, Inference Optimization🔬 Research|分析: 2026年1月3日 16:36
发布: 2025年12月26日 06:13
1分で読める
ArXiv

分析

本文解决了优化大型语言模型(LLM)分布式推理资源分配的关键问题。由于LLM计算成本高昂,将工作负载分布在地理位置不同的服务器上是一种很有前景的降低成本和提高可访问性的方法,因此这项研究意义重大。本文提供了系统研究、性能模型、优化算法(包括混合整数线性规划方法)和仅CPU的模拟器。这项工作对于使LLM更实用和更易于访问至关重要。
引用 / 来源
查看原文
"The paper presents "experimentally validated performance models that can predict the inference performance under given block placement and request routing decisions.""
A
ArXiv2025年12月26日 06:13
* 根据版权法第32条进行合法引用。