EchoFoley:動画向けイベント中心型サウンド生成

Research Paper#Audio Generation, Video Processing, AI🔬 Research|分析: 2026年1月3日 08:45
公開: 2025年12月31日 08:58
1分で読める
ArXiv

分析

本論文は、動画から音声生成における課題に取り組み、EchoFoleyという新しいタスクを導入し、動画内の効果音を細かく制御することに焦点を当てています。新しいフレームワークEchoVidiaと新しいデータセットEchoFoley-6kを提案し、既存の手法と比較して制御性と知覚品質を向上させています。イベントレベルの制御と階層的なセマンティクスの重視は、この分野への重要な貢献です。
引用・出典
原文を見る
"EchoVidia surpasses recent VT2A models by 40.7% in controllability and 12.5% in perceptual quality."
A
ArXiv2025年12月31日 08:58
* 著作権法第32条に基づく適法な引用です。