HeartBench:中国語LLMにおける人間的知性の評価

Research Paper#LLMs, AI Evaluation, Anthropomorphic Intelligence, Chinese Language🔬 Research|分析: 2026年1月3日 23:59
公開: 2025年12月26日 03:54
1分で読める
ArXiv

分析

この論文は、中国語の言語的および文化的コンテキストにおける大規模言語モデル(LLM)の人間的知性を評価するための新しいフレームワークであるHeartBenchを紹介しています。LLMがしばしば苦労する社会的、感情的、倫理的側面に着目することで、現在のLLM評価における重要なギャップに対処しています。本物の心理カウンセリングシナリオの使用と臨床専門家との協力は、ベンチマークの有効性を強化しています。主要モデルのパフォーマンス上限や複雑なシナリオでのパフォーマンス低下など、論文の発見は、現在のLLMの限界と、この分野におけるさらなる研究の必要性を浮き彫りにしています。「ルーブリックベース」の評価や「スコアリング前の推論」プロトコルを含む方法論は、将来の研究にとって貴重な青写真を提供します。
引用・出典
原文を見る
"Even leading models achieve only 60% of the expert-defined ideal score."
A
ArXiv2025年12月26日 03:54
* 著作権法第32条に基づく適法な引用です。