拡散Transformerの高速化と忠実度最適化
分析
この論文は、画像と動画生成におけるDiffusion Transformer (DiT) の遅い推論速度の問題に対処しています。既存の高速化手法の性能を向上させるために、CEM (Cumulative Error Minimization) と呼ばれる新しい忠実度最適化プラグインを導入しています。CEMは、ノイズ除去プロセス中の累積誤差を最小限に抑えることを目指し、生成忠実度の向上につながります。この手法はモデルに依存せず、容易に統合でき、さまざまなモデルとタスクにわたって強力な汎化性を示します。結果は、生成品質の大幅な改善を示し、場合によっては元のモデルを上回っています。
重要ポイント
参照
“CEMは、既存の高速化モデルの生成忠実度を大幅に向上させ、FLUX.1-dev、PixArt-$α$、StableDiffusion1.5、およびHunyuanの元の生成性能を上回っています。”