CLIP-Joint-Detect:視覚言語の教師あり学習による物体検出の強化

Research Paper#Computer Vision, Object Detection, Contrastive Learning, Vision-Language🔬 Research|分析: 2026年1月3日 16:17
公開: 2025年12月28日 15:21
1分で読める
ArXiv

分析

この論文は、CLIPに着想を得たコントラスト視覚言語教師あり学習を活用した物体検出の新しいアプローチ、CLIP-Joint-Detectを紹介しています。主な革新は、CLIPスタイルのコントラスト学習を物体検出器のトレーニングプロセスに直接統合することです。これは、領域の特徴をCLIP埋め込み空間に投影し、学習可能なテキスト埋め込みと整合させることによって実現されます。この論文は、さまざまな検出器アーキテクチャとデータセット全体で一貫したパフォーマンスの向上を示しており、クラスの不均衡やラベルノイズなどの問題に対処する上で、この共同トレーニング戦略の有効性を示唆しています。リアルタイムの推論速度を維持することに焦点を当てていることも、重要な実用的な考慮事項です。
引用・出典
原文を見る
"The approach applies seamlessly to both two-stage and one-stage architectures, achieving consistent and substantial improvements while preserving real-time inference speed."
A
ArXiv2025年12月28日 15:21
* 著作権法第32条に基づく適法な引用です。