SoulX-LiveTalk: 实时音频驱动的虚拟化身
分析
本文介绍了SoulX-LiveTalk,一个用于生成高保真、实时、音频驱动的虚拟化身的140亿参数框架。关键创新是自校正双向蒸馏策略,该策略保持双向注意力以改善运动一致性和视觉细节,以及多步回顾性自校正机制,以防止无限生成期间的错误累积。本文解决了实时虚拟化身生成中计算负载和延迟之间的平衡问题,这是该领域的一个重要问题。实现亚秒级启动延迟和实时吞吐量是一项值得注意的进步。
要点
引用
“SoulX-LiveTalk是第一个实现亚秒级启动延迟(0.87秒)并达到32 FPS实时吞吐量的140亿规模系统。”