热门
最新
红包
立Flag
投票
同城
我的
发布
厌倦了MMLU?当前模型已经达到了极限?是时候升级MMLU了!
介绍我们的新基准MMLU-Pro,一个更加强大和具有挑战性的大规模多任务语言理解基准,包含12K个问题。
有什么新变化?
1. MMLU-Pro使用10个选项而不是4个选项。因此减少了随机猜测的空间。
2. MMLU-Pro通过增加不同学科下更多的大学水平问题,显著提高了复杂度水平。
3. MMLU-Pro也更加强大,对不同提示不那么敏感。
我们展示了我们的预览评估结果在:
https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro
我们发现GPT-4o(71%)实际上比GPT-4-turbo(62%)提高了9%!在原始的MMLU上,提高仅约为2%。
CSDN App 扫码分享
26
267
- 复制链接
- 举报
