OmniAgent: 音频引导的活动感知,用于音频-视频理解
Research Paper#Artificial Intelligence, Audio-Visual Understanding, Active Perception, Large Language Models🔬 Research|分析: 2026年1月3日 18:32•
发布: 2025年12月29日 17:59
•1分で読める
•ArXiv分析
本文介绍了OmniAgent,这是一种用于音频-视觉理解的新方法,它从被动响应生成转向主动多模态查询。它通过采用动态规划和粗到精的音频引导感知范式来解决现有全模态模型的局限性。该智能体战略性地使用专业工具,侧重于与任务相关的线索,从而在基准数据集上实现了显著的性能提升。