人工智能基准测试是否讲述了全部故事?
分析
这篇文章由 Prolific 赞助,批评了当前的人工智能基准测试现状。文章认为,虽然人工智能模型在技术基准测试中取得了高分,但这些分数并不一定转化为实际的实用性、安全性或关联性。文章使用 F1 赛车不适合日常通勤的类比来说明这一点。它强调了当前排名系统(如 Chatbot Arena)的缺陷,并强调需要一种更“人性化”的方法来评估人工智能,尤其是在心理健康等敏感领域。文章还指出了当前人工智能安全措施中缺乏监督和潜在的偏见。
引用
“虽然模型目前在技术考试中打破了记录,但它们往往未能通过最重要的测试:人类体验。”