用于LLM预训练的联合数据选择Paper#llm🔬 Research|分析: 2026年1月3日 15:42•发布: 2025年12月30日 14:38•1分で読める•ArXiv分析本文解决了在大规模预训练大型语言模型(LLM)时,如何高效选择高质量和多样化数据的问题。作者提出了DATAMASK,一个基于策略梯度的框架,可以联合优化质量和多样性指标,克服了现有方法的计算限制。其意义在于,通过从极其庞大的数据集中选择更有效的数据子集,提高了训练效率和模型性能。与贪婪算法相比,选择时间缩短了98.9%是关键贡献,使得联合学习能够应用于万亿token数据集。要点•DATAMASK是一个用于LLM预训练中联合数据选择的新框架。•它使用基于策略梯度的优化,根据质量和多样性指标有效地选择数据。•与贪婪算法相比,显著减少了选择时间。•在各种LLM架构上实现了性能提升。引用 / 来源查看原文"DATAMASK achieves significant improvements of 3.2% on a 1.5B dense model and 1.9% on a 7B MoE model."AArXiv2025年12月30日 14:38* 根据版权法第32条进行合法引用。较旧OpenAI leadership team update较新Stealing Machine Learning Models via Prediction APIs相关分析Paper基于选择策略的协调人形机器人操作2026年1月3日 06:10Paper从未对齐图像即时进行3D场景编辑2026年1月3日 06:10Paper用于未来预测的LLM预测2026年1月3日 06:10来源: ArXiv