【MovieChat】一个理解长视频的系统,能理解视频内容并回答关于视频的问题MovieChat整合了视觉模型和大型语言模型,以克服特定预定义视觉任务的限制。该模型将记忆分为短期记忆和长期记忆两种类型。短期记忆负责最新事件的记忆,长期记忆存储的是视频中的关键信息,这些信息在长时间内保持不变。传送门:https://rese1f.github.io/MovieChathttps://arxiv.org/abs/2307.16449