在内部基准测试中,Code Llama在代码任务上超越了现有的先进公开LLMs。Code Llama 34B在HumanEval上得分为53.7%,在MBPP上得分为56.2%,与其他先进的开源解决方案相比表现最佳,与ChatGPT持平。