低延迟实时双人对话头像生成
Research Paper#Computer Vision, Generative Models, Talking Heads🔬 Research|分析: 2026年1月3日 09:30•
发布: 2025年12月30日 18:43
•1分で読める
•ArXiv分析
本文解决了生成逼真的双人对话头像视频的关键延迟问题,这对于真实的听者反馈至关重要。作者提出了 DyStream,一个基于流匹配的自回归模型,旨在从说话者和听者的音频中实时生成视频。关键创新在于其流友好的自回归框架以及带有前瞻模块的因果编码器,以平衡质量和延迟。本文的重要性在于它有可能实现更自然和交互式的虚拟交流。
要点
引用 / 来源
查看原文"DyStream could generate video within 34 ms per frame, guaranteeing the entire system latency remains under 100 ms. Besides, it achieves state-of-the-art lip-sync quality, with offline and online LipSync Confidence scores of 8.13 and 7.61 on HDTF, respectively."