VL-RouterBench:视觉-语言模型路由的基准

发布:2025年12月29日 16:01
1分で読める
ArXiv

分析

本文介绍了 VL-RouterBench,这是一个新的基准,旨在系统地评估视觉-语言模型 (VLM) 路由系统。缺乏标准化的基准阻碍了该领域的进展。通过提供一个全面的数据集、评估协议和开源工具链,作者旨在促进 VLM 路由技术的可重复研究和实际部署。该基准侧重于准确性、成本和吞吐量,并使用调和平均排名分数,可以对不同的路由方法和配置进行细致的比较。

引用

评估协议共同衡量平均准确度、平均成本和吞吐量,并从归一化成本和准确度的调和平均值构建排名分数,以便在路由器配置和成本预算之间进行比较。