DPAR:効率的な自己回帰型画像生成のための動的パッチ化

公開:2025年12月26日 05:03
1分で読める
ArXiv

分析

この論文は、自己回帰型画像生成の効率を向上させる新しいアプローチであるDPARを紹介しています。固定長トークン化の計算量とメモリの制限に対処するため、画像トークンを可変サイズのパッチに動的に集約します。中核的な革新は、次のトークン予測エントロピーを使用してトークンのマージをガイドすることにあり、これにより、トークン数の削減、FLOPsの削減、収束の高速化、およびベースラインモデルと比較してFIDスコアの改善が実現します。これは、自己回帰モデルをより高い解像度にスケーリングし、生成された画像の品質を向上させる可能性を提供する点で重要です。

参照

DPARは、Imagenet 256および384の生成解像度でそれぞれ1.81倍および2.06倍のトークン数の削減を実現し、トレーニングコストを最大40%削減します。さらに、私たちの方法は、より速い収束を示し、ベースラインモデルと比較して最大27.1%FIDを改善します。