🚨介绍VideoTree！字幕加上大型语言模型可以在长视频-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

懂一点点啊

1 年前

truedevericshoubinyu

🚨 介绍 VideoTree！字幕加上大型语言模型可以在长视频问答中表现良好，但密集的帧字幕会导致效率低下（冗余）和次优（不相关）。

VideoTree 解决了这些问题，并通过以下方式改善了基于大型语言模型的长视频问答：

▶️ 结构化视频表示：通过视觉帧聚类和群组评分，将视频帧迭代组织成一个层次化的树状表示。

▶️ 自适应关键帧选择和粗到细采样：动态选择与查询相关的帧群组进行字幕处理。其树状结构编码了不同的粒度级别，允许 VideoTree 在相关群组中分配更多帧（放大），在不相关的群组中分配较少帧。

这些改进在包括 SOTA 在内的流行基准测试中带来了重大提升，包括 NExT-QA 和 IntentQA，并且在 EgoSchema 上获得了 7.0% 的提升，同时减少了约 40% 的推理时间。

https://arxiv.org/abs/2405.19209
🧵

CSDN App 扫码分享

分享

10

97

复制链接
举报

下一条：

项目：https://github.com/iyaja/llama-fs