热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_36881830
做個酷人
2 年前
trueweixin_36881830

🤩Long Video Assistant (LongVA):长视频理解的突破!

- 将长上下文能力从语言迁移到视觉 🧠
- 唯一开源模型支持输入384帧🤩
- 处理2000+帧(200K+视觉标记)🤯
- 在7B模型中的Video-MME达到最先进的成果
- 引入新基准:用于测量视觉上下文长度的V-NIAH
- 仅在文本(224K标记)和短图像数据上训练

代码、模型、演示和检查点可用🤗
向LMMs-Lab团队致敬,推动了LMM的边界! 🔥

CSDN App 扫码分享
分享
1
18
  • 复制链接
  • 举报
下一条:
向团队致敬,他们让这变得更加易于访问!@rk的小号 @QWSW81 @陈大一 博客:https://huggingface.co/blog/finetune-florence2Colab:https://colab.research.google.com/drive/1hKDrJ5AH_o7I95PtZ9__VlCTNAo1Gjpf?usp=sharing演示:https://huggingface.co/spaces/andito/Florence-2-DocVQA
立即登录