DDSPO: 通过自监督偏好学习增强扩散模型

发布:2025年12月29日 12:46
1分で読める
ArXiv

分析

本文介绍了直接扩散分数偏好优化 (DDSPO),这是一种通过将输出与用户意图对齐并增强视觉质量来改进扩散模型的新方法。关键创新在于使用从预训练参考模型在原始和退化提示下对比输出得出的每个时间步的监督。这种方法消除了对昂贵的人工标记数据集和显式奖励建模的需求,使其比现有的基于偏好的方法更有效、更具可扩展性。本文的重要性在于它有可能在更少的监督下提高扩散模型的性能,从而带来更好的文本到图像生成和其他生成任务。

引用

DDSPO 直接从胜者和失败者的策略中推导出每个时间步的监督,当这些策略可用时。在实践中,我们通过使用预训练的参考模型自动生成偏好信号来避免依赖标记数据:我们对比其在原始提示与语义退化变体下的输出。