来看一下关于 Llama 3.1 405B 的第三方评估结果。SEAL 和 Allen AI 的 ZeroEval 两个独立评估机构给出了自己的结果,405B 确实🐂🍺。SEAL 上405B指令遵循第一、代码第四、数学第二。ZeroEval 测试它整体性能介于 Sonnet 3.5 和 GPT4o 之间。LMsys的结果还没出需要等一段时间。