OmniAgent: 音频引导的活动感知,用于音频-视频理解

发布:2025年12月29日 17:59
1分で読める
ArXiv

分析

本文介绍了OmniAgent,这是一种用于音频-视觉理解的新方法,它从被动响应生成转向主动多模态查询。它通过采用动态规划和粗到精的音频引导感知范式来解决现有全模态模型的局限性。该智能体战略性地使用专业工具,侧重于与任务相关的线索,从而在基准数据集上实现了显著的性能提升。

引用

OmniAgent实现了最先进的性能,超越了领先的开源和专有模型,准确率提高了10% - 20%。