Just Image Transformer: 在像素空间中预测真实图像的流匹配模型
分析
本文介绍了Just Image Transformer (JiT),这是一种流匹配模型,旨在直接在像素空间内预测真实图像,绕过了变分自编码器 (VAE) 的使用。 核心创新在于预测真实图像 (x-pred) 而不是速度 (v),从而实现了卓越的性能。 然而,损失函数是使用从真实图像 (x) 和噪声图像 (z) 导出的速度 (v-loss) 计算的。 本文强调了从基于 U-Net 的模型(如 Stable Diffusion 等基于扩散的图像生成中普遍存在)的转变,并暗示了进一步的发展。
引用
“JiT (Just image Transformer) 不使用 VAE,并在像素空间中执行流匹配。 该模型通过预测真实图像 x (x-pred) 而不是速度 v 来获得更好的性能。”