LLaVA-NeXT-Interleave
解决大型多模态模型中的多图像、视频和3D问题
视觉指令调优在增强大型多模态模型(LMMs)的能力方面取得了可观的进展。然而,现有的开源LMMs主要集中于单图像任务,它们在多图像场景中的应用仍然鲜有探讨。此外,之前的LMM研究是分别处理不同的场景,使得在新兴能力下跨场景泛化变得不可能。为此,我们引入了LLaVA-NeXT-Interleave,该模型同时应对多图像、多帧(视频)、多视角(3D)和多块(单图像)场景中的LMMs。为了实现这些能力,我们将交错数据格式视为通用模板,并编写了包含1,177.6k样本的M4-Instruct数据集,涵盖4个主要领域、14个任务和41个数据集。我们还精心筛选了LLaVA-Interleave Bench,以全面评估LMMs的多图像性能。通过广泛的实验,LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得了领先的结果,同时保持了单图像任务的性能。此外,我们的模型还展示了一些新兴的能力,例如跨不同设置和模态的任务传递。