用于音频驱动的视觉配音的自举框架

Research Paper#Computer Vision, Audio-Driven Video Editing, Diffusion Models🔬 Research|分析: 2026年1月3日 06:10
发布: 2025年12月31日 18:58
1分で読める
ArXiv

分析

本文解决了现有音频驱动视觉配音方法的局限性,这些方法通常依赖于修复,并受到视觉伪影和身份漂移的困扰。作者提出了一个新颖的自举框架,将问题重新定义为视频到视频的编辑任务。这种方法利用扩散Transformer生成合成训练数据,使模型能够专注于精确的嘴唇修改。引入了时间步长自适应多阶段学习策略和一个新的基准数据集,进一步提高了该方法的性能和评估。
引用 / 来源
查看原文
"The self-bootstrapping framework reframes visual dubbing from an ill-posed inpainting task into a well-conditioned video-to-video editing problem."
A
ArXiv2025年12月31日 18:58
* 根据版权法第32条进行合法引用。