VL-RouterBench:视觉-语言模型路由的基准
分析
本文介绍了 VL-RouterBench,这是一个新的基准,旨在系统地评估视觉-语言模型 (VLM) 路由系统。缺乏标准化的基准阻碍了该领域的进展。通过提供一个全面的数据集、评估协议和开源工具链,作者旨在促进 VLM 路由技术的可重复研究和实际部署。该基准侧重于准确性、成本和吞吐量,并使用调和平均排名分数,可以对不同的路由方法和配置进行细致的比较。
要点
引用
“评估协议共同衡量平均准确度、平均成本和吞吐量,并从归一化成本和准确度的调和平均值构建排名分数,以便在路由器配置和成本预算之间进行比较。”