分析
这篇文章描述了 OpenAI 的 Image GPT,一个在像素序列上训练的 Transformer 模型,用于图像生成。它强调了该模型生成连贯的图像补全和样本的能力,以及在无监督图像分类中与卷积神经网络相比具有竞争力的性能。核心发现是将通常用于语言的 Transformer 架构应用于图像生成。
引用
“我们发现,正如一个在语言上训练的大型 Transformer 模型可以生成连贯的文本一样,在像素序列上训练的完全相同的模型可以生成连贯的图像补全和样本。通过建立样本质量和图像分类准确性之间的相关性,我们表明我们最好的生成模型也包含与无监督设置中顶级卷积网络竞争的特征。”