在没有任何视觉输入的情况下,在MMMMU基准测试中表现出色,并且在六个基准测试中平均超过20%胜过随机选择的基线。2)在LLM和LVLM训练中存在非故意的数据泄露。即使没有视觉信息,LLM和LVLM仍能回答一些需要视觉的问题。