ASemConsist: 无需训练的文本到图像生成中的身份一致性

发布:2025年12月29日 07:06
1分で読める
ArXiv

分析

本文解决了使用扩散模型从文本提示生成多张图像时保持角色身份一致性的关键挑战。它提出了一个新颖的框架ASemConsist,无需任何训练即可实现这一点,这是一个显著的优势。核心贡献包括选择性文本嵌入修改、将填充嵌入重新用于语义控制以及自适应特征共享策略。一致性质量评分(CQS)的引入提供了一个统一的指标来评估性能,解决了身份保持和提示对齐之间的权衡。该论文侧重于无需训练的方法和新评估指标的开发,这一点尤其值得关注。

引用

ASemConsist实现了最先进的性能,有效地克服了之前的权衡。