低遅延のリアルタイム双方向トーキングヘッド生成

公開:2025年12月30日 18:43
1分で読める
ArXiv

分析

この論文は、現実的なリスナーフィードバックに不可欠な、現実的な双方向トーキングヘッドビデオ生成における重要な遅延の問題に対処しています。著者は、話者と聞き手の両方の音声からリアルタイムでビデオを生成するために設計された、フローマッチングベースの自己回帰モデルであるDyStreamを提案しています。主な革新は、ストリームフレンドリーな自己回帰フレームワークと、品質と遅延のバランスを取るためのルックアヘッドモジュールを備えた因果エンコーダーにあります。この論文の重要性は、より自然でインタラクティブな仮想コミュニケーションを可能にする可能性にあります。

参照

DyStreamは、フレームあたり34ミリ秒以内でビデオを生成でき、システム全体の遅延が100ミリ秒未満であることを保証します。さらに、HDTFでオフラインおよびオンラインのLipSync Confidenceスコアがそれぞれ8.13と7.61であり、最先端のリップシンク品質を実現しています。