ファインチューニングされたCodeLlama-34BがHumanEvalでGPT-4を上回る
分析
この記事は、独自のデータセットでCodeLlama-34BとCodeLlama-34B-Pythonをファインチューニングし、GPT-4と比較してHumanEvalでより高いpass@1スコアを達成したことを報告しています。著者は、データセットにおける命令-回答ペアの使用、ネイティブファインチューニング、および結果の有効性を確保するためのOpenAIのデコンタミネーション方法論の適用を強調しています。トレーニングプロセスには、DeepSpeed ZeRO 3、Flash Attention 2、および32個のA100-80GB GPUが関与し、3時間で完了しました。この記事は、コード生成能力における重要な成果を強調しています。
重要ポイント
参照
“私たちは、CodeLlama-34BとCodeLlama-34B-Pythonを、HumanEvalでそれぞれ67.6%と69.5%のpass@1を達成した内部Phindデータセットでファインチューニングしました。GPT-4は67%を達成しました。”