通过Prompt Choreography加速语言模型工作流程

Paper#llm🔬 Research|分析: 2026年1月3日 19:17
发布: 2025年12月28日 19:21
1分で読める
ArXiv

分析

本文介绍了Prompt Choreography,一个旨在加速使用大型语言模型(LLM)的多智能体工作流程的框架。核心创新在于使用动态的、全局的KV缓存来存储和重用编码后的消息,从而实现高效执行,允许LLM调用访问先前消息的重新排序的子集,并支持并行调用。本文解决了由缓存引起的结果差异的潜在问题,并提出微调LLM以减轻这些差异。主要意义在于,它表明了在基于LLM的工作流程中实现显著加速的潜力,尤其是在具有冗余计算的工作流程中。
引用 / 来源
查看原文
"Prompt Choreography significantly reduces per-message latency (2.0--6.2$ imes$ faster time-to-first-token) and achieves substantial end-to-end speedups ($>$2.2$ imes$) in some workflows dominated by redundant computation."
A
ArXiv2025年12月28日 19:21
* 根据版权法第32条进行合法引用。