ThinkGen: 基于LLM的视觉生成

Research Paper#AI, Image Generation, LLM🔬 Research|分析: 2026年1月3日 16:03
发布: 2025年12月29日 16:08
1分で読める
ArXiv

分析

本文介绍了ThinkGen,这是一个利用多模态大型语言模型 (MLLM) 的 Chain-of-Thought (CoT) 推理能力进行视觉生成任务的新框架。它通过提出解耦架构和可分离的基于 GRPO 的训练范式来解决现有方法的局限性,从而实现跨不同生成场景的泛化。本文的重要性在于它通过结合高级推理来提高图像生成的质量和适应性。
引用 / 来源
查看原文
"ThinkGen employs a decoupled architecture comprising a pretrained MLLM and a Diffusion Transformer (DiT), wherein the MLLM generates tailored instructions based on user intent, and DiT produces high-quality images guided by these instructions."
A
ArXiv2025年12月29日 16:08
* 根据版权法第32条进行合法引用。