VL4Gaze:释放视觉语言模型用于注视跟踪

Research#llm🔬 Research|分析: 2025年12月25日 10:28
发布: 2025年12月25日 05:00
1分で読める
ArXiv Vision

分析

本文介绍了一个新的大规模基准VL4Gaze,用于评估和训练视觉语言模型(VLM)以进行注视理解。缺乏这样的基准阻碍了VLM中注视解释能力的探索。VL4Gaze通过提供一个全面的数据集来解决这个问题,该数据集包含旨在测试注视理解各个方面的问答对,包括对象描述、方向描述、点位置和歧义问题识别。研究表明,现有的VLM在没有特定训练的情况下难以进行注视理解,但在VL4Gaze上进行微调后,性能会显着提高。这突出了针对性监督对于开发VLM中的注视理解能力的重要性,并为该领域未来的研究提供了宝贵的资源。该基准的多任务方法是一个关键优势。
引用 / 来源
查看原文
"...training on VL4Gaze brings substantial and consistent improvements across all tasks, highlighting the importance of targeted multi-task supervision for developing gaze understanding capabilities"
A
ArXiv Vision2025年12月25日 05:00
* 根据版权法第32条进行合法引用。