Envision:基于目标图像视频扩散的具身视觉规划
Research Paper#Embodied AI, Visual Planning, Video Diffusion Models, Robotics🔬 Research|分析: 2026年1月3日 19:49•
发布: 2025年12月27日 15:46
•1分で読める
•ArXiv分析
本文介绍了Envision,一个用于具身视觉规划的新型基于扩散的框架。它通过明确地结合目标图像来指导轨迹生成,从而解决了现有方法的局限性,从而提高了目标对齐和空间一致性。包含目标图像模型和环境-目标视频模型的两阶段方法是一项关键贡献。这项工作的潜在影响在于它能够为机器人规划和控制提供可靠的视觉规划。