DPAR:用于高效自回归视觉生成的动态分块
Research Paper#Image Generation, Autoregressive Models, Deep Learning🔬 Research|分析: 2026年1月3日 16:37•
发布: 2025年12月26日 05:03
•1分で読める
•ArXiv分析
本文介绍了 DPAR,一种改进自回归图像生成效率的新方法。它通过将图像 tokens 动态聚合到可变大小的 patches 来解决固定长度 tokenization 的计算和内存限制。核心创新在于使用下一个 token 预测熵来指导 tokens 的合并,从而减少了 token 数量、降低了 FLOPs、加快了收敛速度,并提高了 FID 分数,与基线模型相比。这很重要,因为它提供了一种将自回归模型扩展到更高分辨率并可能提高生成图像质量的方法。
关键要点
引用 / 来源
查看原文"DPAR reduces token count by 1.81x and 2.06x on Imagenet 256 and 384 generation resolution respectively, leading to a reduction of up to 40% FLOPs in training costs. Further, our method exhibits faster convergence and improves FID by up to 27.1% relative to baseline models."