新型 AI 小说检查器揭示 LLM 评估缺陷

research#llm👥 Community|分析: 2026年3月22日 04:34
发布: 2026年3月22日 04:25
1分で読める
r/LanguageTechnology

分析

这是一个令人兴奋的消息! 一个新的确定性系统,用于检查小说的连贯性,绕过了对 大语言模型 (LLM) 最终判断的依赖,已经被开发出来。 结果已经显示出巨大的前景,具有令人印象深刻的 F1 分数,但更重要的是,揭示了外部 LLM 评估方法中的一些令人惊讶的问题。
引用 / 来源
查看原文
"当我检查从判决得出的外部重叠行与故事文本进行直接对比时,16 个预期发现中有 6 个是错误的地面真实情况,即 37.5%。"
R
r/LanguageTechnology2026年3月22日 04:25
* 根据版权法第32条进行合法引用。