EchoFoley:基于事件的视频声音生成

Research Paper#Audio Generation, Video Processing, AI🔬 Research|分析: 2026年1月3日 08:45
发布: 2025年12月31日 08:58
1分で読める
ArXiv

分析

本文解决了视频到音频生成中的局限性,引入了一个新任务EchoFoley,专注于对视频中的音效进行细粒度控制。它提出了一个新框架EchoVidia和一个新数据集EchoFoley-6k,以提高可控性和感知质量,与现有方法相比。 关注事件级控制和分层语义是该领域的重要贡献。
引用 / 来源
查看原文
"EchoVidia surpasses recent VT2A models by 40.7% in controllability and 12.5% in perceptual quality."
A
ArXiv2025年12月31日 08:58
* 根据版权法第32条进行合法引用。