革新图像生成:LLM 在 SDXL 中掌控全局!
分析
这是一个非常令人兴奋的进展!通过在 SDXL 中用 LLM 替换 CLIP,研究人员有可能解锁图像生成的新水平的控制和细微差别。 使用更小、更专业的模型来转换 LLM 的隐藏状态是一种巧妙而高效的方法,暗示了更快、更灵活的工作流程。
要点
引用 / 来源
查看原文"My theory, is that CLIP is the bottleneck as it struggles with spatial adherence (things like left of, right), negations in the positive prompt (e.g. no moustache), contetx length limit (77 token limit) and natural language limitations. So, what if we could apply an LLM to directly do conditioning, and not just alter ('enhance') the prompt?"