SoulX-LiveTalk: オーディオ駆動アバターのリアルタイム生成
分析
本論文は、高忠実度でリアルタイムのオーディオ駆動アバターを生成するための140億パラメータのフレームワーク、SoulX-LiveTalkを紹介しています。主な革新は、モーションの整合性と視覚的詳細を向上させる双方向注意を維持する自己修正双方向蒸留戦略と、無限生成中のエラー蓄積を防ぐマルチステップ回顧的自己修正メカニズムです。本論文は、リアルタイムアバター生成における計算負荷と遅延のバランスという課題に対処しており、これはこの分野における重要な問題です。サブ秒の起動遅延とリアルタイムのスループットの達成は、注目すべき進歩です。