通过反事实视频生成驯服视频理解中的幻觉

发布:2025年12月30日 14:53
1分で読める
ArXiv

分析

本文解决了多模态大型语言模型(MLLMs)中的一个关键问题:视频理解中的视觉幻觉,尤其是在反事实场景中。作者提出了一个新颖的框架DualityForge,用于合成反事实视频数据,以及一个训练方案DNA-Train,以减轻这些幻觉。该方法意义重大,因为它解决了数据不平衡问题,并提供了一种生成高质量训练数据的方法,从而提高了在幻觉和通用基准测试中的性能。数据集和代码的开源进一步增强了这项工作的影响。

引用

该论文表明,与Qwen2.5-VL-7B基线相比,在减少反事实视频上的模型幻觉方面,相对改善了24.0%。