我们展示了MMLU-Pro在不同学科和来源上的分布情况。56-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_33612966

我们展示了MMLU-Pro在不同学科和来源上的分布情况。56％的MMLU-Pro来自原始MMLU，通过选择更难的问题进行提取。另外44％来自STEM网站、TheoremQA和SciBench。

我们将所有问题扩展为10选项问题，然后进行非常仔细的人工验证，以确保我们的问题是正确且无歧义的。

如果您想在MMLU-Pro上进行评估，您可以参考链接 https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro/blob/main/run_gpt4o.py进行。欢迎向我们的hf页面提交您的pull request。

CSDN App 扫码分享

分享

2

35

复制链接
举报

下一条：

厌倦了MMLU？当前模型已经达到了极限？是时候升级MMLU了！介绍我们的新基准MMLU-Pro，一个更加强大和具有挑战性的大规模多任务语言理解基准，包含12K个问题。有什么新变化？1. MMLU-Pro使用10个选项而不是4个选项。因此减少了随机猜测的空间。2. MMLU-Pro通过增加不同学科下更多的大学水平问题，显著提高了复杂度水平。3. MMLU-Pro也更加强大，对不同提示不那么敏感。我们展示了我们的预览评估结果在：https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro我们发现GPT-4o（71%）实际上比GPT-4-turbo（62%）提高了9%！在原始的MMLU上，提高仅约为2%。