Paper#llm🔬 Research分析: 2026年1月3日 19:17

通过Prompt Choreography加速语言模型工作流程

发布:2025年12月28日 19:21
1分で読める
ArXiv

分析

本文介绍了Prompt Choreography,一个旨在加速使用大型语言模型(LLM)的多智能体工作流程的框架。核心创新在于使用动态的、全局的KV缓存来存储和重用编码后的消息,从而实现高效执行,允许LLM调用访问先前消息的重新排序的子集,并支持并行调用。本文解决了由缓存引起的结果差异的潜在问题,并提出微调LLM以减轻这些差异。主要意义在于,它表明了在基于LLM的工作流程中实现显著加速的潜力,尤其是在具有冗余计算的工作流程中。

引用

Prompt Choreography显著降低了每个消息的延迟(首次标记时间快2.0-6.2倍),并在某些以冗余计算为主的工作流程中实现了显著的端到端加速(>2.2倍)。