LLM事前学習のための共同データ選択

Paper #llm 🔬 Research|分析: 2026年1月3日 15:42•

公開: 2025年12月30日 14:38

•

1分で読める

分析

この論文は、大規模言語モデル（LLM）の事前学習において、高品質で多様なデータを効率的に選択するという課題に取り組んでいます。著者は、品質と多様性のメトリクスを共同で最適化する、ポリシー勾配ベースのフレームワークであるDATAMASKを提案し、既存の方法の計算上の制限を克服しています。その重要性は、非常に大規模なデータセットからより効果的なデータのサブセットを選択することにより、トレーニング効率とモデルのパフォーマンスの両方を向上させる能力にあります。貪欲アルゴリズムと比較して98.9％の選択時間の短縮は重要な貢献であり、共同学習をトリリオン・トークン・データセットに適用することを可能にしています。

重要ポイント

引用・出典

原文を見る

"DATAMASK achieves significant improvements of 3.2% on a 1.5B dense model and 1.9% on a 7B MoE model."

ArXiv2025年12月30日 14:38

* 著作権法第32条に基づく適法な引用です。

古い記事

OpenAI leadership team update

新しい記事

Stealing Machine Learning Models via Prediction APIs

LLM事前学習のための共同データ選択

分析

重要ポイント

関連分析

選択ポリシーを用いた協調型人型ロボット操作

未ポーズ画像からの即時3Dシーン編集

将来予測のためのLLMフォアキャスティング

📬 AIニュースを受信

カテゴリで探す

トレンドトピック

📬 AIニュースを受信

カテゴリで探す

トレンドトピック