反実仮想動画生成による動画理解における幻覚の抑制

公開:2025年12月30日 14:53
1分で読める
ArXiv

分析

本論文は、マルチモーダル大規模言語モデル(MLLM)における重要な問題、特に反事実シナリオにおける動画理解における視覚的幻覚に対処しています。著者は、反事実動画データを合成するための新しいフレームワークDualityForgeと、これらの幻覚を軽減するためのトレーニングレジームDNA-Trainを提案しています。このアプローチは、データ不均衡の問題に対処し、高品質なトレーニングデータを生成する方法を提供し、幻覚と汎用ベンチマークの両方でパフォーマンスを向上させるため、重要です。データセットとコードのオープンソース化は、この研究の影響をさらに高めます。

参照

本論文は、Qwen2.5-VL-7Bベースラインと比較して、反事実動画におけるモデルの幻覚を24.0%相対的に改善したことを示しています。