LMM的IFEval!MIA-Bench是一个新基准,旨在评估多模态大型语言模型(MLLMs)在严格遵守复杂指令方面的能力。我们的基准包括一组多样的400个图像-提示对,每个对都经过精心设计,以挑战模型在生成满足特定请求模式的准确响应时对分层指令的遵从度。对各种最先进的MLLMs的评估结果显示了显著的性能差异,突显了在指令忠实度方面需要改进的领域。论文: https://arxiv.org/pdf/2407.01509