SIID:用于高分辨率数字生成的尺度不变像素空间扩散模型

Research#llm📝 Blog|分析: 2025年12月25日 22:20
发布: 2025年12月24日 14:36
1分で読める
r/MachineLearning

分析

这篇文章介绍了一种新的扩散模型架构SIID,旨在解决UNet和DiT架构在缩放图像分辨率时的局限性。解决的核心问题是由于固定像素密度导致的UNet中的特征检测退化,以及在放大时DiT中引入的全新位置嵌入。SIID旨在通过保持尺度不变性来生成具有最小伪影的高分辨率图像。作者承认代码的当前状态并承诺更新,强调模型架构本身是主要焦点。据报道,该模型在64x64 MNIST上训练,生成可读的1024x1024数字,展示了其高分辨率图像生成的潜力。
引用 / 来源
查看原文
"UNet heavily relies on convolution kernels, and convolution kernels are trained to a certain pixel density. Change the pixel density (by increasing the resolution of the image via upscaling) and your feature detector can no longer detect those same features."
R
r/MachineLearning2025年12月24日 14:36
* 根据版权法第32条进行合法引用。