HeartBench:评估中文LLM中的拟人智能

Research Paper#LLMs, AI Evaluation, Anthropomorphic Intelligence, Chinese Language🔬 Research|分析: 2026年1月3日 23:59
发布: 2025年12月26日 03:54
1分で読める
ArXiv

分析

本文介绍了HeartBench,这是一个新的框架,用于评估大型语言模型(LLM)在中文语言和文化背景下的拟人智能。它通过关注LLM经常挣扎的社会、情感和伦理维度,解决了当前LLM评估中的一个关键差距。使用真实的心理咨询场景并与临床专家合作,增强了基准的有效性。论文的发现,包括领先模型的性能上限以及在复杂场景中的性能衰退,突出了当前LLM的局限性,以及对该领域进一步研究的必要性。包括基于规则的评估和“推理-评分”协议在内的方法论,为未来的研究提供了宝贵的蓝图。
引用 / 来源
查看原文
"Even leading models achieve only 60% of the expert-defined ideal score."
A
ArXiv2025年12月26日 03:54
* 根据版权法第32条进行合法引用。