用于单目深度估计的视觉自回归建模
Research Paper#Computer Vision, Depth Estimation, Generative Models🔬 Research|分析: 2026年1月3日 19:47•
发布: 2025年12月27日 17:08
•1分で読める
•ArXiv分析
本文提出了一种使用视觉自回归 (VAR) 先验的单目深度估计新方法,为基于扩散的方法提供了替代方案。它利用了文本到图像的 VAR 模型,并引入了尺度相关的条件上采样机制。该方法的效率,只需要 74K 个合成样本进行微调,以及其强大的性能,特别是在室内基准测试中,都值得关注。这项工作将自回归先验定位为深度估计的可行生成模型家族,强调了数据可扩展性和对 3D 视觉任务的适应性。