Paper#llm🔬 Research分析: 2026年1月3日 16:46

DiffThinker:基于扩散模型的生成式多模态推理

发布:2025年12月30日 11:51
1分で読める
ArXiv

分析

本文介绍了DiffThinker,一个用于多模态推理的新型基于扩散的框架,尤其擅长视觉中心任务。它将范式从以文本为中心的推理转变为生成式图像到图像的方法,在逻辑一致性和空间精度方面具有优势。本文的重要性在于它探索了一种新的推理范式,并证明了其在视觉中心任务中优于GPT-5和Gemini-3-Flash等领先的闭源模型。

引用

DiffThinker显著优于包括GPT-5 (+314.2%) 和 Gemini-3-Flash (+111.6%) 在内的领先闭源模型,以及微调后的Qwen3-VL-32B基线 (+39.0%),突出了生成式多模态推理作为视觉中心推理的一种有前景的方法。