大型语言模型与教学行为:教育语篇中的基准研究
分析
这篇 ArXiv NLP 论文调查了大型语言模型 (LLM) 在课堂记录中分类教学行为的基准性能。该研究强调了理解 LLM 在真实教育环境中开箱即用能力方面的一个关键差距。该研究使用零样本、一次样本和少样本提示方法比较了六个 LLM。研究结果表明,虽然零样本性能适中,但少样本提示显着提高了性能,尽管改进并非在所有教学行为中都是一致的。该研究强调了在教育环境中使用基础模型的潜力和局限性,强调需要仔细考虑性能的可变性以及召回率和准确率之间的权衡。这项研究对于考虑将 LLM 用于教育应用程序的教育工作者和开发人员来说很有价值。