诶…Opus的MMLU-PRO得分是68.4,而Qwen2-72B的得分是64.4,已经非常接近了…真的吗?Llama3-70B是56.2分。不过MMLU-PRO对之前的模型评估表现还不错,但对后来的模型来说,最终还是能作弊吧? →RT