两个主要问题:1) 对于许多样本来说,视觉内容是不必要的。答案可以直接从问题和选项中推断出来,或者利用大型语言模型(LLMs)中嵌入的世界知识。这一现象在当前的基准测试中非常普遍。例如,GeminiPro取得了42.9%的成绩。