SIID:用于高分辨率数字生成的尺度不变像素空间扩散模型
分析
这篇文章介绍了一种新的扩散模型架构SIID,旨在解决UNet和DiT架构在缩放图像分辨率时的局限性。解决的核心问题是由于固定像素密度导致的UNet中的特征检测退化,以及在放大时DiT中引入的全新位置嵌入。SIID旨在通过保持尺度不变性来生成具有最小伪影的高分辨率图像。作者承认代码的当前状态并承诺更新,强调模型架构本身是主要焦点。据报道,该模型在64x64 MNIST上训练,生成可读的1024x1024数字,展示了其高分辨率图像生成的潜力。
要点
引用 / 来源
查看原文"UNet heavily relies on convolution kernels, and convolution kernels are trained to a certain pixel density. Change the pixel density (by increasing the resolution of the image via upscaling) and your feature detector can no longer detect those same features."