EchoFoley:基于事件的视频声音生成

发布:2025年12月31日 08:58
1分で読める
ArXiv

分析

本文解决了视频到音频生成中的局限性,引入了一个新任务EchoFoley,专注于对视频中的音效进行细粒度控制。它提出了一个新框架EchoVidia和一个新数据集EchoFoley-6k,以提高可控性和感知质量,与现有方法相比。 关注事件级控制和分层语义是该领域的重要贡献。

引用

EchoVidia 在可控性方面超越了最近的 VT2A 模型 40.7%,在感知质量方面超越了 12.5%。