微调CodeLlama-34B在HumanEval上超越GPT-4
分析
这篇文章报告了在专有数据集上微调CodeLlama-34B和CodeLlama-34B-Python,在HumanEval上获得了比GPT-4更高的pass@1分数。作者强调了在其数据集中使用指令-答案对、原生微调以及应用OpenAI的去污方法以确保结果有效性。训练过程涉及DeepSpeed ZeRO 3、Flash Attention 2和32个A100-80GB GPU,在三个小时内完成。这篇文章突出了代码生成能力方面的一项重大成就。
要点
引用
“我们已经在内部Phind数据集上微调了CodeLlama-34B和CodeLlama-34B-Python,分别在HumanEval上实现了67.6%和69.5%的pass@1。GPT-4实现了67%。”