热门
最新
红包
立Flag
投票
同城
我的
发布
🚨 介绍 VideoTree!字幕加上大型语言模型可以在长视频问答中表现良好,但密集的帧字幕会导致效率低下(冗余)和次优(不相关)。
VideoTree 解决了这些问题,并通过以下方式改善了基于大型语言模型的长视频问答:
▶️ 结构化视频表示:通过视觉帧聚类和群组评分,将视频帧迭代组织成一个层次化的树状表示。
▶️ 自适应关键帧选择和粗到细采样:动态选择与查询相关的帧群组进行字幕处理。其树状结构编码了不同的粒度级别,允许 VideoTree 在相关群组中分配更多帧(放大),在不相关的群组中分配较少帧。
这些改进在包括 SOTA 在内的流行基准测试中带来了重大提升,包括 NExT-QA 和 IntentQA,并且在 EgoSchema 上获得了 7.0% 的提升,同时减少了约 40% 的推理时间。
https://arxiv.org/abs/2405.19209
🧵
CSDN App 扫码分享
10
97
- 复制链接
- 举报