Paper#llm🔬 Research分析: 2026年1月3日 18:52

基于熵引导的Token Dropout:使用有限领域数据训练自回归语言模型

发布:2025年12月29日 12:35
1分で読める
ArXiv

分析

本文解决了在有限的、特定领域数据上训练自回归语言模型时出现的过拟合问题。它发现低熵token学习过快,阻碍了模型在多轮训练中对高熵token的泛化能力。提出的解决方案EntroDrop是一种新颖的正则化技术,它选择性地屏蔽低熵token,从而提高模型性能和鲁棒性。

引用

EntroDrop在训练期间选择性地屏蔽低熵token,并采用课程表来调整正则化强度以适应训练进度。