【Video-MME评估了多种先进的多模态模型（MLLMs）-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_37992011

【Video-MME评估了多种先进的多模态模型（MLLMs），包括GPT-4系列、Gemini 1.5 Pro，以及开源图像模型（如InternVL-Chat-V1.5）和视频模型（如LLaVA-NeXT-Video）。

结果显示Gemini 1.5 Pro遥遥领先。

平均准确率为75.7%，特别是在短视频（<2分钟）上的准确率为82.3%。

GPT-4V和GPT-4o分别以63.7%和65.8%的准确率位列其后。

详细：https://xiaohu.ai/p/8976】

CSDN App 扫码分享

分享

评论

8

复制链接
举报

下一条：

Video-MME: 首个多模态大模型视频分析综合评估基准该基准由来自多个大学和研究机构的研究人员共同开发，旨在通过多样化和高质量的数据集，全面考察MLLMs在处理视频数据时的能力。视频数据集涵盖6个主要视觉领域，包括知识、电影与电视、体育竞技、艺术表演、生活记录和多语言。每个领域进一步细分为30个子类别，如天文学、科技、纪录片、新闻报道、电竞、魔术表演和时尚等，确保广泛的场景适用性。