数据选择的影响：LLM 持续预训练研究

Research #LLM 🔬 Research|分析: 2026年1月10日 11:22•

发布: 2025年12月14日 17:19

•

1分で読める

分析

这篇 ArXiv 文章探讨了数据选择在通过持续预训练完善大型语言模型中的关键作用。这项研究很可能探索了各种数据过滤和增强技术，并分析了它们对模型性能的影响。

引用 / 来源

"The article's focus is on the impact of data selection during continued pretraining for LLMs, using Curió-Edu 7B as a case study."

ArXiv2025年12月14日 17:19

* 根据版权法第32条进行合法引用。

JointAVBench: A New Benchmark for Audio-Visual Reasoning

Analyzing Sparse Neuronal Networks: A Random Matrix Theory Approach