VibeVoiceの画期的な突破:Encodec比80×圧縮で90分・4話者の会話を合成

research#voice📝 Blog|分析: 2026年4月8日 12:46
公開: 2026年4月8日 10:57
1分で読める
Zenn LLM

分析

VibeVoiceは、長らく解決困難であったコンテキストウィンドウのボトルネックを解消し、音声合成(TTS)技術において非常にワクワクする画期的な突破をもたらします。7.5 Hzの超低フレームレートトークナイザーを活用することで、1つのパスで最大4人の話者による90分間の自然な対話をシームレスに生成します。Eleven-V3 AlphaやGemini-2.5-Proといった主要な競合を音声品質で凌駕している点は、長尺音声生成における飛躍的な進歩を示しています。
引用・出典
原文を見る
"VibeVoiceは7.5 HzトークナイザーでEncodec比80×圧縮を実現し、次トークン拡散によって最大4話者・90分の自然な対話を1つのLLMコンテキストウィンドウ内で合成できる画期的なTTSモデルです。音声品質はMOS 3.76を達成し、競合モデルを上回ります。"
Z
Zenn LLM2026年4月8日 10:57
* 著作権法第32条に基づく適法な引用です。