Research#llm🔬 Research分析: 2025年12月25日 04:01

SE360:通过分层数据构建在360°全景图中进行语义编辑

发布:2025年12月24日 05:00
1分で読める
ArXiv Vision

分析

本文介绍了一种名为SE360的新型框架,用于对360°全景图进行语义编辑。其核心创新在于其自主数据生成流程,该流程利用视觉语言模型(VLM)和自适应投影调整,从无标签全景图中创建语义上有意义且几何上一致的数据对。两阶段数据细化策略进一步增强了真实感并减少了过拟合。该方法在视觉质量和语义准确性方面优于现有方法,表明在全景图像的基于指令的图像编辑方面取得了重大进展。使用在构建的数据集上训练的基于Transformer的扩散模型,可以实现由文本、掩码或参考图像引导的灵活对象编辑,使其成为一种通用的全景操作工具。

引用

“其核心是一个新颖的粗到细的自主数据生成流程,无需人工干预。”