两个主要问题：1)对于许多样本来说，视觉内容是不必要的。答案-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

两个主要问题：1) 对于许多样本来说，视觉内容是不必要的。答案可以直接从问题和选项中推断出来，或者利用大型语言模型（LLMs）中嵌入的世界知识。这一现象在当前的基准测试中非常普遍。例如，GeminiPro取得了42.9%的成绩。

CSDN App 扫码分享

分享

评论

9

复制链接
举报

下一条：

我们是否在正确评估大型视觉-语言模型的道路上？近期，大型视觉-语言模型（LVLMs）取得了快速进展，激发了众多研究去评估它们的多模态能力。然而，我们深入当前的评估工作，并识别出