SIID: スケール不変なピクセル空間拡散モデルによる高解像度数字生成

Research#llm📝 Blog|分析: 2025年12月25日 22:20
公開: 2025年12月24日 14:36
1分で読める
r/MachineLearning

分析

この投稿では、画像解像度を拡大する際のUNetおよびDiTアーキテクチャの制限に対処するために設計された、新しい拡散モデルアーキテクチャであるSIIDを紹介しています。取り組むべき中心的な問題は、固定されたピクセル密度によるUNetでの特徴検出の低下と、アップスケーリング時のDiTでの完全に新しい位置埋め込みの導入です。SIIDは、スケール不変性を維持することにより、アーティファクトを最小限に抑えて高解像度画像を生成することを目指しています。著者は、コードの現在の状態を認め、更新を約束し、モデルアーキテクチャ自体が主な焦点であることを強調しています。64x64 MNISTでトレーニングされたモデルは、読み取り可能な1024x1024桁を生成すると報告されており、高解像度画像生成の可能性を示しています。
引用・出典
原文を見る
"UNet heavily relies on convolution kernels, and convolution kernels are trained to a certain pixel density. Change the pixel density (by increasing the resolution of the image via upscaling) and your feature detector can no longer detect those same features."
R
r/MachineLearning2025年12月24日 14:36
* 著作権法第32条に基づく適法な引用です。