「为了降低模型 API 成本,我们对每个评估任务随机抽取 256 个样本」我认为这可能是他们在表 1 中报告的数字总体上高于我们工作中报告的数字的原因:https://arxiv.org/pdf/2404.10774,但相关排名仍然合理。