我们策划了一个包含多样化长视频和文本的非常大的数据集，并提出-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

truedevhaoliu

我们策划了一个包含多样化长视频和文本的非常大的数据集，并提出了两阶段训练方法，以便在视频和语言上实现大背景世界模型。我们逐步扩展Llama2在语言和视频上的上下文范围，从4K扩大到1M，以此来管理计算成本。

CSDN App 扫码分享

分享

评论

29

复制链接
举报

下一条：

当前对世界建模的方法大多局限于短文本或图像序列，这限制了它们对那些难以用文本或短片段表示的世界部分的理解，并且无法处理复杂的长篇语言和视觉任务。