VibeVoice突破性进展:以80倍压缩实现90分钟4说话者对话合成

research#voice📝 Blog|分析: 2026年4月8日 12:46
发布: 2026年4月8日 10:57
1分で読める
Zenn LLM

分析

VibeVoice通过解决长期存在的上下文窗口瓶颈,在文本转语音(TTS)技术中引入了一项令人难以置信的突破性进展。通过利用超低的7.5 Hz分词器,它能够在单次运行中无缝生成包含多达四名不同说话者、时长90分钟的自然对话。其在音频质量上超越Eleven-V3 Alpha和Gemini-2.5-Pro等主要竞争对手的能力,突显了长篇音频生成的巨大飞跃。
引用 / 来源
查看原文
"VibeVoice使用7.5 Hz分词器实现了比Encodec高80倍的压缩率,通过下一令牌扩散,能够在单个LLM上下文窗口内合成最多4个说话者、长达90分钟的自然对话,并以3.76的MOS超越了竞争对手。"
Z
Zenn LLM2026年4月8日 10:57
* 根据版权法第32条进行合法引用。