用于视频推理的流程感知评估
Research Paper#Video Generation, Reasoning, Evaluation🔬 Research|分析: 2026年1月3日 06:19•
发布: 2025年12月31日 16:31
•1分で読める
•ArXiv分析
本文解决了评估视频生成模型的一个关键问题:模型倾向于通过不正确的推理过程(结果黑客攻击)来实现正确的结果。引入了 VIPER,一个新的基准测试,具有流程感知的评估范式,以及 Process-outcome Consistency (POC@r) 指标,是重要的贡献。研究结果突出了当前模型的局限性,以及对更强大的推理能力的需求。