SE360:階層的データ構築による360°パノラマにおけるセマンティック編集

Research#llm🔬 Research|分析: 2025年12月25日 04:01
公開: 2025年12月24日 05:00
1分で読める
ArXiv Vision

分析

この論文では、360°パノラマをセマンティックに編集するための新しいフレームワークであるSE360を紹介しています。主な革新は、Vision-Language Model(VLM)と適応型投影調整を利用して、ラベルなしのパノラマからセマンティックに意味があり、幾何学的に一貫性のあるデータペアを作成する自律的なデータ生成パイプラインにあります。2段階のデータ改良戦略により、リアリズムがさらに向上し、過剰適合が軽減されます。視覚的な品質とセマンティックな精度において既存の方法を上回るこの方法の能力は、パノラマ画像に対する指示ベースの画像編集における重要な進歩を示唆しています。構築されたデータセットでトレーニングされたTransformerベースの拡散モデルを使用することで、テキスト、マスク、または参照画像によってガイドされる柔軟なオブジェクト編集が可能になり、パノラマ操作のための汎用性の高いツールになります。
引用・出典
原文を見る
""At its core is a novel coarse-to-fine autonomous data generation pipeline without manual intervention.""
A
ArXiv Vision2025年12月24日 05:00
* 著作権法第32条に基づく適法な引用です。