JavisGPT:用于声音-视频理解和生成的统一多模态LLM

发布:2025年12月28日 12:25
1分で読める
ArXiv

分析

本文介绍了JavisGPT,一种新型的多模态大型语言模型(MLLM),旨在用于联合音频-视频(JAV)理解和生成。其重要性在于其统一的架构、用于时空融合的SyncFusion模块,以及使用可学习查询连接到预训练的生成器。创建包含超过20万个对话的大型指令数据集(JavisInst-Omni)对于训练和评估模型的能力至关重要。本文的贡献在于推进了从音频和视频输入理解和生成内容的最新技术,特别是在复杂和同步的场景中。

引用

JavisGPT 优于现有的 MLLM,特别是在复杂和时间同步的设置中。