关于评估的一个令人难过的事实是:如果你为你的基准测试创建一个私有的测试集,人们就不会采用它。我们在EvalAI(https://eval.ai/web/challenges/challenge-page/2179/overview)上托管了官方的MMMU私有测试集,但每个人仍然报告的是验证分数。我发现MathVista也有类似的情况,大家都只报告testmini分数。