利用样本聚类性缓解虚假相关性

发布:2025年12月28日 10:54
1分で読める
ArXiv

分析

本文解决了深度学习模型中虚假相关性的问题,这是一个可能导致泛化能力差的重要问题。所提出的数据导向方法利用了受虚假特征影响的样本的“聚类性”,提供了一个新颖的视角。识别、中和、消除和更新的流程定义明确,提供了清晰的方法。与ERM相比,最差组准确率提高了20%以上,这有力地表明了该方法的有效性。代码和检查点的可用性增强了可重复性和实际应用。

引用

受虚假特征影响的样本倾向于在学习到的特征空间中表现出分散的分布。