399行 × 24特征对于医学分类模型来说太小了吗?

Research#Machine Learning📝 Blog|分析: 2026年1月3日 06:58
发布: 2026年1月3日 05:13
1分で読める
r/learnmachinelearning

分析

这篇文章讨论了小型表格数据集(399个样本,24个特征)在医学背景下进行二元分类任务的适用性。作者正在寻求关于此数据集大小是否适合经典机器学习的建议,以及在这种情况下数据增强是否有益。作者使用中位数插补、缺失值指示器,并侧重于验证和防止数据泄漏的方法,考虑到数据集的局限性,是合理的。核心问题围绕着使用如此小的数据集实现良好性能的可行性,以及数据增强对表格数据的潜在益处。
引用 / 来源
查看原文
"The author is working on a disease prediction model with a small tabular dataset and is questioning the feasibility of using classical ML techniques."
R
r/learnmachinelearning2026年1月3日 05:13
* 根据版权法第32条进行合法引用。