用于LLM预训练的联合数据选择

Paper #llm 🔬 Research|分析: 2026年1月3日 15:42•

发布: 2025年12月30日 14:38

•

1分で読める

分析

本文解决了在大规模预训练大型语言模型（LLM）时，如何高效选择高质量和多样化数据的问题。作者提出了DATAMASK，一个基于策略梯度的框架，可以联合优化质量和多样性指标，克服了现有方法的计算限制。其意义在于，通过从极其庞大的数据集中选择更有效的数据子集，提高了训练效率和模型性能。与贪婪算法相比，选择时间缩短了98.9%是关键贡献，使得联合学习能够应用于万亿token数据集。

要点

引用 / 来源

查看原文

"DATAMASK achieves significant improvements of 3.2% on a 1.5B dense model and 1.9% on a 7B MoE model."

ArXiv2025年12月30日 14:38

* 根据版权法第32条进行合法引用。

较旧

OpenAI leadership team update

较新

Stealing Machine Learning Models via Prediction APIs

用于LLM预训练的联合数据选择

分析

要点

相关分析

基于选择策略的协调人形机器人操作

从未对齐图像即时进行3D场景编辑

用于未来预测的LLM预测

📬 获取AI新闻

按类别浏览

热门话题

📬 获取AI新闻

按类别浏览

热门话题