LIME:边缘设备上的协作LLM推理

Research Paper#Large Language Models (LLMs), Edge Computing, Inference Optimization🔬 Research|分析: 2026年1月4日 00:01
发布: 2025年12月26日 02:41
1分で読める
ArXiv

分析

本文解决了在资源受限的边缘设备上运行大型语言模型(LLM)的挑战。它提出了LIME,一个协作系统,使用流水线并行和模型卸载来实现无损推理,这意味着它在提高速度的同时保持准确性。 重点关注边缘设备以及使用细粒度调度和内存自适应等技术是关键贡献。 论文在异构 Nvidia Jetson 设备上使用 LLaMA3.3-70B-Instruct 模型的实验验证非常重要,证明了比现有方法有显著的加速。
引用 / 来源
查看原文
"LIME achieves 1.7x and 3.7x speedups over state-of-the-art baselines under sporadic and bursty request patterns respectively, without compromising model accuracy."
A
ArXiv2025年12月26日 02:41
* 根据版权法第32条进行合法引用。