大规模数据下生成增强视觉语言理解

Paper#llm🔬 Research|分析: 2026年1月3日 18:43
发布: 2025年12月29日 14:49
1分で読める
ArXiv

分析

本文研究了生成任务对视觉语言模型的影响,特别是在大规模数据下。它挑战了添加生成总能提高理解的常见假设,强调了语义级生成优于像素级生成的重要性。研究结果表明,统一的生成-理解模型表现出优越的数据缩放和利用,并且输入嵌入的自回归是捕获视觉细节的有效方法。
引用 / 来源
查看原文
"Generation improves understanding only when it operates at the semantic level, i.e. when the model learns to autoregress high-level visual representations inside the LLM."
A
ArXiv2025年12月29日 14:49
* 根据版权法第32条进行合法引用。