Research#llm📝 Blog分析: 2025年12月26日 19:53

[P] S2ID:尺度不变图像扩散器 - 在标准MNIST上训练,生成1024x1024的数字,并以任意宽高比生成,几乎没有伪影(610万参数)

发布:2025年12月26日 19:51
1分で読める
r/MachineLearning

分析

这篇文章介绍了一种新的扩散架构S2ID,旨在解决现有模型(如UNet和DiT)的局限性。解决的核心问题是UNet中卷积核对上采样过程中像素密度变化的敏感性,这会导致伪影。S2ID还旨在改进DiT模型,这些模型可能无法在处理放大图像时有效地压缩上下文。作者认为,与LLM中的token不同,像素不是原子性的,因此需要不同的方法。该模型取得了令人印象深刻的结果,使用相对较小的参数数量生成了具有最小伪影的高分辨率图像。作者承认代码的当前状态,而是专注于架构创新。

引用

LLM中的Token是原子性的,而像素不是。