🤩LongVideoAssistant(LongVA)：长-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_36881830

🤩Long Video Assistant (LongVA)：长视频理解的突破！

- 将长上下文能力从语言迁移到视觉 🧠
- 唯一开源模型支持输入384帧🤩
- 处理2000+帧（200K+视觉标记）🤯
- 在7B模型中的Video-MME达到最先进的成果
- 引入新基准：用于测量视觉上下文长度的V-NIAH
- 仅在文本（224K标记）和短图像数据上训练

代码、模型、演示和检查点可用🤗
向LMMs-Lab团队致敬，推动了LMM的边界！ 🔥

CSDN App 扫码分享

分享

1

18

复制链接
举报

下一条：

向团队致敬，他们让这变得更加易于访问！@rk的小号 @QWSW81 @陈大一博客：https://huggingface.co/blog/finetune-florence2Colab：https://colab.research.google.com/drive/1hKDrJ5AH_o7I95PtZ9__VlCTNAo1Gjpf?usp=sharing演示：https://huggingface.co/spaces/andito/Florence-2-DocVQA