ビジョン言語モデルのファインチューニングの再考

Research Paper#Vision-Language Models, Fine-tuning, Mask Fine-Tuning (MFT)🔬 Research|分析: 2026年1月3日 19:15
公開: 2025年12月28日 20:41
1分で読める
ArXiv

分析

この論文は、ビジョン言語モデル(VLM)のファインチューニングに対する新しいアプローチとして、Mask Fine-Tuning(MFT)を紹介しています。MFTは、重みを更新する代わりに、学習可能なゲーティングスコアを割り当てることでモデルを再パラメータ化し、内部サブネットワークを再編成できるようにします。主な貢献は、MFTがLoRAや完全なファインチューニングなどの従来のメソッドよりも優れており、凍結されたバックボーンを変更することなく高いパフォーマンスを達成できることを実証している点です。これは、モデルの既存の知識内の接続を再確立することによって効果的な適応が達成できることを示唆しており、より効率的で、潜在的に破壊的でないファインチューニング戦略を提供しています。
引用・出典
原文を見る
"MFT consistently surpasses LoRA variants and even full fine-tuning, achieving high performance without altering the frozen backbone."
A
ArXiv2025年12月28日 20:41
* 著作権法第32条に基づく適法な引用です。