Research#Image Generation📝 Blog分析: 2025年12月29日 01:43

Just Image Transformer: ピクセル空間で実画像を予測するフローマッチングモデル

公開:2025年12月14日 07:17
1分で読める
Zenn DL

分析

この記事では、Variational Autoencoder (VAE) を使用せずに、ピクセル空間で直接実画像を予測するように設計されたフローマッチングモデルであるJust Image Transformer (JiT)を紹介しています。 中核的な革新は、速度(v)ではなく実画像(x-pred)を予測することにあり、優れたパフォーマンスを達成しています。 ただし、損失関数は、実画像(x)とノイズ画像(z)から導き出された速度(v-loss)を使用して計算されます。 この記事は、Stable Diffusionのような拡散ベースの画像生成で普及しているU-Netベースのモデルからの移行を強調し、さらなる開発を示唆しています。

参照

JiT (Just image Transformer) は VAE を使わず、ピクセル空間上で flow-matching を行う。 モデルは速度 (velocity) v を予測するよりも実画像 x を予測した方が性能が良い (x-pred)