我们策划了一个包含多样化长视频和文本的非常大的数据集,并提出了两阶段训练方法,以便在视频和语言上实现大背景世界模型。我们逐步扩展Llama2在语言和视频上的上下文范围,从4K扩大到1M,以此来管理计算成本。