InstructMoLE:命令誘導型エキスパートによる画像生成
分析
この論文は、拡散トランスフォーマーを用いたマルチ条件画像生成の課題に取り組み、特にパラメータ効率の良いファインチューニングに焦点を当てています。LoRAやトークンレベルのMoLEルーティングといった既存手法の限界を特定し、アーティファクトが発生する可能性を指摘しています。主な貢献は、命令誘導型ルーティングを使用してエキスパートを選択し、グローバルなセマンティクスを保持し、画像品質を向上させるInstructMoLEフレームワークです。直交性損失の導入もパフォーマンスを向上させています。この論文の重要性は、命令駆動型画像生成における構成制御と忠実度を向上させる可能性にあります。
重要ポイント
参照
“InstructMoLEは、ユーザーの包括的な指示から導き出されたグローバルルーティング信号であるInstruction-Guided Routing (IGR)を利用しています。これにより、単一の、一貫して選択されたエキスパート評議会がすべての入力トークンに均一に適用され、生成プロセスのグローバルなセマンティクスと構造的完全性が保持されます。”