LLaVA-NeXT-Interleave解决大型多模态模型-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

我的

发布

_akhaliq

2 年前

truetechsavvyak

LLaVA-NeXT-Interleave

解决大型多模态模型中的多图像、视频和3D问题

视觉指令调优在增强大型多模态模型（LMMs）的能力方面取得了可观的进展。然而，现有的开源LMMs主要集中于单图像任务，它们在多图像场景中的应用仍然鲜有探讨。此外，之前的LMM研究是分别处理不同的场景，使得在新兴能力下跨场景泛化变得不可能。为此，我们引入了LLaVA-NeXT-Interleave，该模型同时应对多图像、多帧（视频）、多视角（3D）和多块（单图像）场景中的LMMs。为了实现这些能力，我们将交错数据格式视为通用模板，并编写了包含1,177.6k样本的M4-Instruct数据集，涵盖4个主要领域、14个任务和41个数据集。我们还精心筛选了LLaVA-Interleave Bench，以全面评估LMMs的多图像性能。通过广泛的实验，LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得了领先的结果，同时保持了单图像任务的性能。此外，我们的模型还展示了一些新兴的能力，例如跨不同设置和模态的任务传递。

CSDN App 扫码分享

2

30

复制链接
举报

下一条：

每日论文：https://huggingface.co/papers

立即登录