上海人工智能实验室发布了一套多模态LLM视觉评价体系MMSt-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

1 年前

truem0_46163918

上海人工智能实验室发布了一套多模态 LLM 视觉评价体系MMStar。#ai##llm#

他们还利用这套评价体系对现在的多模态 LLM 进行了评价产出了对应的排行，GPT-4V 还是毫无疑问的第一。

但即使是 GPT-4 在这个体系中也没有及格，多模态还有很长的路要走。

详细介绍：

MMStar包含1500个经过人工精心挑选的高质量多模态评估样本，旨在全面评估视觉语言模型在6个核心能力和18个具体维度上的多模态能力。

在MMStar上，GPT-4V的高分辨率版本表现最佳，准确率达到57.1%。但在细粒度感知、逻辑推理、科学技术和数学等能力上，所有模型的表现都未达到令人满意的水平。

值得一提的是，小模型TinyLLaVA-3B的表现出乎意料地好，超过了一些7B和13B的模型，凸显了小规模视觉语言模型的潜力。

还提出了两个新的评估指标：多模态收益(MG)和多模态泄漏(ML)。MG衡量视觉语言模型从多模态训练中获得的实际性能提升，而ML衡量评估样本在多模态训练过程中的泄漏程度。

项目地址：https://mmstar-benchmark.github.io/

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

聚四氟乙烯烧杯特氟龙烧杯带手柄耐酸碱有机溶剂本底值低配套ICP- MS