揭示编程语言家族以增强代码LLM
分析
这项研究探索了编程语言之间的潜在关系,以提高多语言代码大型语言模型(LLM)的训练和性能。通过分析语言特征并创建嵌入,该研究识别了语言家族,并利用这些见解来优化LLM训练策略,从而实现显著的性能提升。
引用 / 来源
查看原文"Building on the uncovered language families, we propose three strategies to enhance multilingual LLM training: transfer learning across linguistically related languages, linguistic proximity-guided curriculum learning, and centroid-based intermediary code translation."