LLM事前学習のための共同データ選択

Paper#llm🔬 Research|分析: 2026年1月3日 15:42
公開: 2025年12月30日 14:38
1分で読める
ArXiv

分析

この論文は、大規模言語モデル(LLM)の事前学習において、高品質で多様なデータを効率的に選択するという課題に取り組んでいます。著者は、品質と多様性のメトリクスを共同で最適化する、ポリシー勾配ベースのフレームワークであるDATAMASKを提案し、既存の方法の計算上の制限を克服しています。その重要性は、非常に大規模なデータセットからより効果的なデータのサブセットを選択することにより、トレーニング効率とモデルのパフォーマンスの両方を向上させる能力にあります。貪欲アルゴリズムと比較して98.9%の選択時間の短縮は重要な貢献であり、共同学習をトリリオン・トークン・データセットに適用することを可能にしています。
引用・出典
原文を見る
"DATAMASK achieves significant improvements of 3.2% on a 1.5B dense model and 1.9% on a 7B MoE model."
A
ArXiv2025年12月30日 14:38
* 著作権法第32条に基づく適法な引用です。