热门

最新

红包

立Flag

投票

同城

我的

发布
devericshoubinyu
懂一点点啊
1 年前
truedevericshoubinyu

🚨 介绍 VideoTree!字幕加上大型语言模型可以在长视频问答中表现良好,但密集的帧字幕会导致效率低下(冗余)和次优(不相关)。

VideoTree 解决了这些问题,并通过以下方式改善了基于大型语言模型的长视频问答:

▶️ 结构化视频表示:通过视觉帧聚类和群组评分,将视频帧迭代组织成一个层次化的树状表示。

▶️ 自适应关键帧选择和粗到细采样:动态选择与查询相关的帧群组进行字幕处理。其树状结构编码了不同的粒度级别,允许 VideoTree 在相关群组中分配更多帧(放大),在不相关的群组中分配较少帧。

这些改进在包括 SOTA 在内的流行基准测试中带来了重大提升,包括 NExT-QA 和 IntentQA,并且在 EgoSchema 上获得了 7.0% 的提升,同时减少了约 40% 的推理时间。

https://arxiv.org/abs/2405.19209
🧵

CSDN App 扫码分享
分享
10
97
  • 复制链接
  • 举报
下一条:
项目:https://github.com/iyaja/llama-fs
立即登录