自奖励多模态推理提升LLM一致性
分析
这篇论文解决了多模态LLM(MLLM)推理一致性的关键问题。现有方法通常侧重于最终答案的准确性,而忽略了推理过程的可靠性。SR-MCR提供了一种新颖的、无标签的方法,使用自引用线索来指导推理过程,从而提高准确性和一致性。使用无评论员的GRPO目标和置信度感知冷却机制进一步增强了训练的稳定性和性能。结果表明在视觉基准测试中达到了最先进的水平。
要点
引用
“SR-MCR在广泛的视觉基准测试中提高了答案准确性和推理一致性;在同等规模的开源模型中,SR-MCR-7B实现了最先进的性能,平均准确率为81.4%。”