REVEALER:基于强化学习的视觉推理,用于文本-图像对齐评估

Paper#LLM🔬 Research|分析: 2026年1月3日 19:08
发布: 2025年12月29日 03:24
1分で読める
ArXiv

分析

本文解决了文本到图像(T2I)模型中的一个关键问题:评估文本提示和生成的图像之间的对齐。现有方法通常缺乏细粒度的可解释性。REVEALER 提出了一种新颖的框架,使用强化学习和视觉推理来提供元素级别的对齐评估,与现有方法相比,提供了改进的性能和效率。使用结构化的“grounding-reasoning-conclusion”范式和复合奖励函数是关键的创新。
引用 / 来源
查看原文
"REVEALER achieves state-of-the-art performance across four benchmarks and demonstrates superior inference efficiency."
A
ArXiv2025年12月29日 03:24
* 根据版权法第32条进行合法引用。