🤩Long Video Assistant (LongVA):长视频理解的突破!- 将长上下文能力从语言迁移到视觉 🧠- 唯一开源模型支持输入384帧🤩- 处理2000+帧(200K+视觉标记)🤯- 在7B模型中的Video-MME达到最先进的成果- 引入新基准:用于测量视觉上下文长度的V-NIAH- 仅在文本(224K标记)和短图像数据上训练代码、模型、演示和检查点可用🤗向LMMs-Lab团队致敬,推动了LMM的边界! 🔥