分析
这篇文章强调了LLM研究中的一个关键问题:解释漂移。作者试图研究LLM如何解释任务,以及这些解释如何随时间变化,即使使用相同的提示也会导致不一致的输出。核心问题是,审稿人侧重于温度调整和提示工程等表面解决方案,这些解决方案可以强制一致性,但不能保证准确性。作者的挫败感源于这些解决方案没有解决模型对任务的理解这一根本问题。医疗保健诊断的例子清楚地说明了这个问题:一致但错误的答案比偶尔正确的、不一致的答案更糟糕。作者寻求关于如何将对话引向解释漂移这一核心问题的建议。
要点
引用
““我试图研究的不是随机性,而是模型如何解释任务,以及它每天如何改变对任务的看法。””