内容指出,在大规模训练数据中对这些样本的记忆。例如,Sphinx-X-MoE在没有访问图像的情况下在MMMMU上获得了43.6%的成绩,超过了其LLM骨干的17.9%。这两个问题都导致了对实际多模态收益的误判,并可能