ThinkGen: 基于LLM的视觉生成

发布:2025年12月29日 16:08
1分で読める
ArXiv

分析

本文介绍了ThinkGen,这是一个利用多模态大型语言模型 (MLLM) 的 Chain-of-Thought (CoT) 推理能力进行视觉生成任务的新框架。它通过提出解耦架构和可分离的基于 GRPO 的训练范式来解决现有方法的局限性,从而实现跨不同生成场景的泛化。本文的重要性在于它通过结合高级推理来提高图像生成的质量和适应性。

引用

ThinkGen 采用解耦架构,包括预训练的 MLLM 和 Diffusion Transformer (DiT),其中 MLLM 根据用户意图生成定制指令,而 DiT 根据这些指令生成高质量图像。