Paper #llm 🔬 Research分析: 2026年1月3日 18:52

基于熵引导的Token Dropout：使用有限领域数据训练自回归语言模型

发布:2025年12月29日 12:35

•

1分で読める

分析

本文解决了在有限的、特定领域数据上训练自回归语言模型时出现的过拟合问题。它发现低熵token学习过快，阻碍了模型在多轮训练中对高熵token的泛化能力。提出的解决方案EntroDrop是一种新颖的正则化技术，它选择性地屏蔽低熵token，从而提高模型性能和鲁棒性。

引用

“EntroDrop在训练期间选择性地屏蔽低熵token，并采用课程表来调整正则化强度以适应训练进度。”

Three channel dissipative warm Higgs inflation with global inference via genetic algorithms

The World Is Bigger! A Computationally-Embedded Perspective on the Big World Hypothesis