EchoFoley:基于事件的视频声音生成
分析
本文解决了视频到音频生成中的局限性,引入了一个新任务EchoFoley,专注于对视频中的音效进行细粒度控制。它提出了一个新框架EchoVidia和一个新数据集EchoFoley-6k,以提高可控性和感知质量,与现有方法相比。 关注事件级控制和分层语义是该领域的重要贡献。
要点
引用
“EchoVidia 在可控性方面超越了最近的 VT2A 模型 40.7%,在感知质量方面超越了 12.5%。”
本文解决了视频到音频生成中的局限性,引入了一个新任务EchoFoley,专注于对视频中的音效进行细粒度控制。它提出了一个新框架EchoVidia和一个新数据集EchoFoley-6k,以提高可控性和感知质量,与现有方法相比。 关注事件级控制和分层语义是该领域的重要贡献。
“EchoVidia 在可控性方面超越了最近的 VT2A 模型 40.7%,在感知质量方面超越了 12.5%。”