通过多模态结构化预训练实现以车辆为中心的感知
分析
本文介绍了一种名为VehicleMAE-V2的新型预训练大型模型,旨在提高以车辆为中心的感知能力。其核心创新在于利用多模态结构化先验知识(对称性、轮廓和语义)来指导掩码令牌重建过程。所提出的模块(SMM、CRM、SRM)有效地结合了这些先验知识,从而增强了通用表示的学习。该方法解决了现有方法中的一个关键差距,即在预训练期间缺乏对车辆相关知识的有效学习。对称性约束、轮廓特征保留以及图像-文本特征对齐的使用是改进智能系统中车辆感知的有前途的技术。本文对结构化先验知识的关注是对该领域的宝贵贡献。
引用 / 来源
查看原文"By exploring and exploiting vehicle-related multimodal structured priors to guide the masked token reconstruction process, our approach can significantly enhance the model's capability to learn generalizable representations for vehicle-centric perception."