用于视频推理的流程感知评估

Research Paper#Video Generation, Reasoning, Evaluation🔬 Research|分析: 2026年1月3日 06:19
发布: 2025年12月31日 16:31
1分で読める
ArXiv

分析

本文解决了评估视频生成模型的一个关键问题:模型倾向于通过不正确的推理过程(结果黑客攻击)来实现正确的结果。引入了 VIPER,一个新的基准测试,具有流程感知的评估范式,以及 Process-outcome Consistency (POC@r) 指标,是重要的贡献。研究结果突出了当前模型的局限性,以及对更强大的推理能力的需求。
引用 / 来源
查看原文
"State-of-the-art video models achieve only about 20% POC@1.0 and exhibit a significant outcome-hacking."
A
ArXiv2025年12月31日 16:31
* 根据版权法第32条进行合法引用。