分析
本文介绍了一种名为 LLM-PeerReview 的无监督集成方法,用于从多个大型语言模型 (LLM) 生成的候选中选择最佳响应。它利用了受同行评审启发的框架,使用 LLM 作为评委来评估和推理候选响应。该方法的主要优势在于其无监督的特性、可解释性以及强大的实验结果,在多个数据集上优于现有模型。
引用
“LLM-PeerReview 在概念上很简单,但在经验上很强大。所提出的两种变体在四个数据集上都取得了强劲的结果,包括分别超越了最近的先进模型 Smoothie-Global 6.9% 和 7.3% 个百分点。”