SoulX-LiveTalk: オーディオ駆動アバターのリアルタイム生成

Paper#AI Avatar Generation🔬 Research|分析: 2026年1月3日 18:55
公開: 2025年12月29日 11:18
1分で読める
ArXiv

分析

本論文は、高忠実度でリアルタイムのオーディオ駆動アバターを生成するための140億パラメータのフレームワーク、SoulX-LiveTalkを紹介しています。主な革新は、モーションの整合性と視覚的詳細を向上させる双方向注意を維持する自己修正双方向蒸留戦略と、無限生成中のエラー蓄積を防ぐマルチステップ回顧的自己修正メカニズムです。本論文は、リアルタイムアバター生成における計算負荷と遅延のバランスという課題に対処しており、これはこの分野における重要な問題です。サブ秒の起動遅延とリアルタイムのスループットの達成は、注目すべき進歩です。
引用・出典
原文を見る
"SoulX-LiveTalk is the first 14B-scale system to achieve a sub-second start-up latency (0.87s) while reaching a real-time throughput of 32 FPS."
A
ArXiv2025年12月29日 11:18
* 著作権法第32条に基づく適法な引用です。