ASemConsist: トレーニングフリーのテキスト-画像生成におけるアイデンティティの一貫性

公開:2025年12月29日 07:06
1分で読める
ArXiv

分析

この論文は、拡散モデルを使用してテキストプロンプトから生成された複数の画像間で、キャラクターのアイデンティティの一貫性を維持するという重要な課題に取り組んでいます。トレーニングを必要としないASemConsistという新しいフレームワークを提案しており、これは大きな利点です。主な貢献は、選択的なテキスト埋め込みの修正、セマンティック制御のためのパディング埋め込みの再利用、および適応的な特徴共有戦略です。一貫性品質スコア(CQS)の導入は、パフォーマンスを評価するための統一されたメトリックを提供し、アイデンティティの保持とプロンプトの調整間のトレードオフに対処します。トレーニングフリーのアプローチと新しい評価メトリックの開発に焦点を当てている点が特に注目に値します。

参照

ASemConsistは、最先端のパフォーマンスを達成し、以前のトレードオフを効果的に克服します。