ファインチューニングされたCodeLlama-34BがHumanEvalでGPT-4を上回る
分析
この記事は、独自のデータセットでCodeLlama-34BとCodeLlama-34B-Pythonをファインチューニングし、GPT-4と比較してHumanEvalでより高いpass@1スコアを達成したことを報告しています。著者は、データセットにおける命令-回答ペアの使用、ネイティブファインチューニング、および結果の有効性を確保するためのOpenAIのデコンタミネーション方法論の適用を強調しています。トレーニングプロセスには、DeepSpeed ZeRO 3、Flash Attention 2、および32個のA100-80GB GPUが関与し、3時間で完了しました。この記事は、コード生成能力における重要な成果を強調しています。
重要ポイント
引用・出典
原文を見る"We have fine-tuned CodeLlama-34B and CodeLlama-34B-Python on an internal Phind dataset that achieved 67.6% and 69.5% pass@1 on HumanEval, respectively. GPT-4 achieved 67%."