LLM事前学習のための共同データ選択
分析
この論文は、大規模言語モデル(LLM)の事前学習において、高品質で多様なデータを効率的に選択するという課題に取り組んでいます。著者は、品質と多様性のメトリクスを共同で最適化する、ポリシー勾配ベースのフレームワークであるDATAMASKを提案し、既存の方法の計算上の制限を克服しています。その重要性は、非常に大規模なデータセットからより効果的なデータのサブセットを選択することにより、トレーニング効率とモデルのパフォーマンスの両方を向上させる能力にあります。貪欲アルゴリズムと比較して98.9%の選択時間の短縮は重要な貢献であり、共同学習をトリリオン・トークン・データセットに適用することを可能にしています。