[P] S2ID：尺度不变图像扩散器 - 在标准MNIST上训练，生成1024x1024的数字，并以任意宽高比生成，几乎没有伪影（610万参数）

Research #llm 📝 Blog|分析: 2025年12月26日 19:53•

发布: 2025年12月26日 19:51

•

1分で読める

分析

这篇文章介绍了一种新的扩散架构S2ID，旨在解决现有模型（如UNet和DiT）的局限性。解决的核心问题是UNet中卷积核对上采样过程中像素密度变化的敏感性，这会导致伪影。S2ID还旨在改进DiT模型，这些模型可能无法在处理放大图像时有效地压缩上下文。作者认为，与LLM中的token不同，像素不是原子性的，因此需要不同的方法。该模型取得了令人印象深刻的结果，使用相对较小的参数数量生成了具有最小伪影的高分辨率图像。作者承认代码的当前状态，而是专注于架构创新。

要点

引用 / 来源

查看原文

"Tokens in LLMs are atomic, pixels are not."

r/MachineLearning2025年12月26日 19:51

* 根据版权法第32条进行合法引用。

较旧

Why High Benchmark Scores Don’t Mean Better AI

较新

ChatGPT 5.2 Exhibits Repetitive Behavior in Conversational Threads

[P] S2ID：尺度不变图像扩散器 - 在标准MNIST上训练，生成1024x1024的数字，并以任意宽高比生成，几乎没有伪影（610万参数）

分析

要点

相关分析

人类AI检测

侧重于实现的深度学习书籍

个性化 Gemini

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题