视觉理解作为语义语言

发布:2025年12月29日 09:43
1分で読める
ArXiv

分析

本文提出了一个关于视觉表征学习的新颖视角,将其框架化为一个依赖于视觉离散语义语言的过程。它认为,视觉理解需要一个结构化的表征空间,类似于纤维束,其中语义意义与干扰变化区分开来。本文的重要性在于其理论框架,该框架与大型模型中的经验观察结果一致,并为理解视觉表征学习提供了拓扑视角。

引用

语义不变性需要一个非同胚的、判别性的目标,例如,通过标签进行监督、跨实例识别或提供显式语义等价性的多模态对齐。