热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_41352992
鼓时鼓刻
2 年前
trueweixin_41352992

LMM的IFEval!

MIA-Bench是一个新基准,旨在评估多模态大型语言模型(MLLMs)在严格遵守复杂指令方面的能力。我们的基准包括一组多样的400个图像-提示对,每个对都经过精心设计,以挑战模型在生成满足特定请求模式的准确响应时对分层指令的遵从度。对各种最先进的MLLMs的评估结果显示了显著的性能差异,突显了在指令忠实度方面需要改进的领域。

论文:
https://arxiv.org/pdf/2407.01509

CSDN App 扫码分享
分享
评论
11
  • 复制链接
  • 举报
下一条:
✊我们在过去两个月里升级了我们的LLaVA-NeXT-Video,并且为了庆祝CVPR,演示版已暂时发布!欢迎大家试用!演示链接:https://2802e9e9a2970e5be6.gradio.live/
立即登录