LVLM辅助对齐特定任务视觉模型

发布:2025年12月26日 11:11
1分で読める
ArXiv

分析

本文解决了在部署特定任务视觉模型时的一个关键问题:它们倾向于依赖虚假相关性并表现出脆弱的行为。所提出的LVLM-VA方法通过利用LVLM的泛化能力,提供了一个实用的解决方案,以使这些模型与人类领域知识对齐。这在模型可解释性和鲁棒性至关重要的高风险领域尤为重要。双向界面允许领域专家与模型进行有效交互,从而改善对齐并减少对偏差的依赖。

引用

LVLM辅助视觉对齐 (LVLM-VA) 方法提供了一个双向界面,该界面将模型行为转化为自然语言,并将人类的类级规范映射到图像级评论,从而实现领域专家与模型之间的有效交互。