マルチモーダル構造化事前学習による車両中心の知覚

Research#llm🔬 Research|分析: 2025年12月25日 03:49
公開: 2025年12月24日 05:00
1分で読める
ArXiv Vision

分析

この論文では、車両中心の知覚を改善するために設計された新しい事前学習済み大規模モデルであるVehicleMAE-V2を紹介しています。主な革新は、マスクされたトークン再構築プロセスをガイドするために、マルチモーダル構造化事前知識(対称性、輪郭、セマンティクス)を活用することにあります。提案されたモジュール(SMM、CRM、SRM)は、これらの事前知識を効果的に組み込み、一般化可能な表現の学習を強化します。このアプローチは、既存の方法における重要なギャップ、つまり事前学習中の車両関連知識の効果的な学習の欠如に対処します。対称性制約、輪郭特徴の保持、および画像とテキストの特徴のアライメントの使用は、インテリジェントシステムにおける車両知覚を改善するための有望な技術です。構造化された事前知識に焦点を当てていることは、この分野への貴重な貢献です。
引用・出典
原文を見る
"By exploring and exploiting vehicle-related multimodal structured priors to guide the masked token reconstruction process, our approach can significantly enhance the model's capability to learn generalizable representations for vehicle-centric perception."
A
ArXiv Vision2025年12月24日 05:00
* 著作権法第32条に基づく適法な引用です。