误导对LVLM（低视觉语言模型）的研究。为此，我们提出了MM-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

误导对LVLM（低视觉语言模型）的研究。为此，我们提出了MMStar，一个精英视觉必不可少的多模态基准，由人工精心选出的1500个样本组成。MMStar基准测试了6项核心能力和18个详细轴向，旨在评估LVLM的多模态处理能力。

CSDN App 扫码分享

分享

评论

7

复制链接
举报

下一条：

内容指出，在大规模训练数据中对这些样本的记忆。例如，Sphinx-X-MoE在没有访问图像的情况下在MMMMU上获得了43.6%的成绩，超过了其LLM骨干的17.9%。这两个问题都导致了对实际多模态收益的误判，并可能