【Video-MME评估了多种先进的多模态模型(MLLMs),包括GPT-4系列、Gemini 1.5 Pro,以及开源图像模型(如InternVL-Chat-V1.5)和视频模型(如LLaVA-NeXT-Video)。结果显示Gemini 1.5 Pro遥遥领先。平均准确率为75.7%,特别是在短视频(<2分钟)上的准确率为82.3%。GPT-4V和GPT-4o分别以63.7%和65.8%的准确率位列其后。详细:https://xiaohu.ai/p/8976】