热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyak
_akhaliq
2 年前
truetechsavvyak

两个主要问题:1) 对于许多样本来说,视觉内容是不必要的。答案可以直接从问题和选项中推断出来,或者利用大型语言模型(LLMs)中嵌入的世界知识。这一现象在当前的基准测试中非常普遍。例如,GeminiPro取得了42.9%的成绩。

CSDN App 扫码分享
分享
评论
9
  • 复制链接
  • 举报
下一条:
我们是否在正确评估大型视觉-语言模型的道路上?近期,大型视觉-语言模型(LVLMs)取得了快速进展,激发了众多研究去评估它们的多模态能力。然而,我们深入当前的评估工作,并识别出
立即登录