OmniAgent: 音频引导的活动感知,用于音频-视频理解

Research Paper#Artificial Intelligence, Audio-Visual Understanding, Active Perception, Large Language Models🔬 Research|分析: 2026年1月3日 18:32
发布: 2025年12月29日 17:59
1分で読める
ArXiv

分析

本文介绍了OmniAgent,这是一种用于音频-视觉理解的新方法,它从被动响应生成转向主动多模态查询。它通过采用动态规划和粗到精的音频引导感知范式来解决现有全模态模型的局限性。该智能体战略性地使用专业工具,侧重于与任务相关的线索,从而在基准数据集上实现了显著的性能提升。
引用 / 来源
查看原文
"OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy."
A
ArXiv2025年12月29日 17:59
* 根据版权法第32条进行合法引用。