附带说明 - Arena 的评分高于 3.5-turbo,但它的 mmlu 只有 50,而 3.5-turbo 是 70。如果人们仅以 Arena elo 排名作为模型性能的唯一指标,这种差异是令人担忧的。