VL4Gaze:視線追跡のためのビジョン・言語モデルの活用
分析
本論文では、視線理解のためのビジョン・言語モデル(VLM)を評価およびトレーニングするための新しい大規模ベンチマークであるVL4Gazeを紹介しています。このようなベンチマークの欠如は、VLMにおける視線解釈能力の探求を妨げてきました。VL4Gazeは、オブジェクト記述、方向記述、ポイント位置、および曖昧な質問認識を含む、視線理解のさまざまな側面をテストするように設計された質問応答ペアを備えた包括的なデータセットを提供することにより、このギャップに対処します。この研究は、既存のVLMは特定のトレーニングなしでは視線理解に苦労するが、VL4Gazeで微調整するとパフォーマンスが大幅に向上することを明らかにしています。これは、VLMにおける視線理解能力の開発には、ターゲットを絞った監督が必要であることを強調し、この分野における将来の研究のための貴重なリソースを提供します。ベンチマークのマルチタスクアプローチは、重要な強みです。
重要ポイント
引用・出典
原文を見る"...training on VL4Gaze brings substantial and consistent improvements across all tasks, highlighting the importance of targeted multi-task supervision for developing gaze understanding capabilities"