Research#llm🔬 Research分析: 2026年1月4日 08:06

基于 Kolmogorov-Arnold 专家的多模态场景图,用于视听问答

发布:2025年11月28日 16:03
1分で読める
ArXiv

分析

这篇文章描述了一篇关于视听问答的研究论文。研究的核心是使用多模态场景图和 Kolmogorov-Arnold 专家来提高性能。重点是整合不同的模态(音频和视觉)来回答关于场景的问题。

要点

    引用