用于具有不可验证奖励的复杂任务的Selective TTS

Paper#LLM🔬 Research|分析: 2026年1月3日 19:47
发布: 2025年12月27日 17:01
1分で読める
ArXiv

分析

本文解决了在最终结果难以验证且奖励模型不可靠的复杂任务中扩展LLM代理的挑战。它引入了Selective TTS,一个基于流程的细化框架,该框架将计算分布在多代理管道的各个阶段,并尽早修剪低质量的分支。这种方法旨在减轻评判者漂移并稳定细化,从而提高生成视觉上富有洞察力的图表和报告的性能。这项工作意义重大,因为它解决了将LLM应用于具有开放式目标和不可验证奖励的现实世界任务(例如科学发现和故事生成)中的一个基本问题。
引用 / 来源
查看原文
"Selective TTS improves insight quality under a fixed compute budget, increasing mean scores from 61.64 to 65.86 while reducing variance."
A
ArXiv2025年12月27日 17:01
* 根据版权法第32条进行合法引用。