EchoFoley:動画向けイベント中心型サウンド生成

公開:2025年12月31日 08:58
1分で読める
ArXiv

分析

本論文は、動画から音声生成における課題に取り組み、EchoFoleyという新しいタスクを導入し、動画内の効果音を細かく制御することに焦点を当てています。新しいフレームワークEchoVidiaと新しいデータセットEchoFoley-6kを提案し、既存の手法と比較して制御性と知覚品質を向上させています。イベントレベルの制御と階層的なセマンティクスの重視は、この分野への重要な貢献です。

参照

EchoVidiaは、最近のVT2Aモデルを制御性で40.7%、知覚品質で12.5%上回っています。