[P] S2ID: スケール不変画像ディフューザー - 標準的なMNISTで学習、1024x1024の数字を生成、ほぼアーティファクトなしで任意の縦横比に対応(610万パラメータ)
分析
この投稿では、UNetやDiTなどの既存のモデルの制限に対処するために設計された、新しい拡散アーキテクチャであるS2IDを紹介しています。対処される中心的な問題は、アップスケーリング中のピクセル密度変化に対するUNetの畳み込みカーネルの感度であり、アーティファクトにつながります。S2IDは、アップスケールされた画像を処理する際にコンテキストを効果的に圧縮できない可能性があるDiTモデルの改善も目指しています。著者は、LLMのトークンとは異なり、ピクセルはアトミックではないため、異なるアプローチが必要であると主張しています。このモデルは、比較的小さなパラメータ数で、アーティファクトを最小限に抑えながら高解像度画像を生成するという、印象的な結果を達成しています。著者は、コードの現在の状態を認識しており、代わりにアーキテクチャの革新に焦点を当てています。
重要ポイント
参照
“LLMのトークンはアトミックですが、ピクセルはそうではありません。”