Just Image Transformer: 在像素空间中预测真实图像的流匹配模型

Research#Image Generation📝 Blog|分析: 2025年12月29日 01:43
发布: 2025年12月14日 07:17
1分で読める
Zenn DL

分析

本文介绍了Just Image Transformer (JiT),这是一种流匹配模型,旨在直接在像素空间内预测真实图像,绕过了变分自编码器 (VAE) 的使用。 核心创新在于预测真实图像 (x-pred) 而不是速度 (v),从而实现了卓越的性能。 然而,损失函数是使用从真实图像 (x) 和噪声图像 (z) 导出的速度 (v-loss) 计算的。 本文强调了从基于 U-Net 的模型(如 Stable Diffusion 等基于扩散的图像生成中普遍存在)的转变,并暗示了进一步的发展。
引用 / 来源
查看原文
"JiT (Just image Transformer) does not use VAE and performs flow-matching in pixel space. The model performs better by predicting the real image x (x-pred) rather than the velocity v."
Z
Zenn DL2025年12月14日 07:17
* 根据版权法第32条进行合法引用。