DDSPO: 自己教師あり選好学習による拡散モデルの強化

公開:2025年12月29日 12:46
1分で読める
ArXiv

分析

この論文は、Direct Diffusion Score Preference Optimization (DDSPO) を紹介しており、ユーザーの意図に沿った出力を生成し、視覚的な品質を向上させることで、拡散モデルを改善する新しい手法です。主な革新は、元のプロンプトと劣化させたプロンプトに基づいて事前学習された参照モデルの出力を対比させることで得られる、各タイムステップの教師あり学習の使用です。このアプローチにより、高コストの人手によるラベル付けされたデータセットや明示的な報酬モデリングが不要になり、既存の選好ベースの手法よりも効率的かつスケーラブルになります。この論文の重要性は、より少ない教師あり学習で拡散モデルの性能を向上させ、より優れたテキストから画像への生成やその他の生成タスクにつながる可能性にあります。

参照

DDSPOは、そのようなポリシーが利用可能な場合、勝者と敗者のポリシーから各タイムステップの教師あり学習を直接導き出します。実際には、事前学習された参照モデルを使用して選好シグナルを自動的に生成することにより、ラベル付けされたデータへの依存を回避します。元のプロンプトと意味的に劣化させたバリアントに基づいて、その出力を対比させます。