热门

最新

红包

立Flag

投票

同城

我的

发布
devhaoliu
刘haohao
1 年前
truedevhaoliu

我们策划了一个包含多样化长视频和文本的非常大的数据集,并提出了两阶段训练方法,以便在视频和语言上实现大背景世界模型。我们逐步扩展Llama2在语言和视频上的上下文范围,从4K扩大到1M,以此来管理计算成本。

CSDN App 扫码分享
分享
评论
29
  • 复制链接
  • 举报
下一条:
当前对世界建模的方法大多局限于短文本或图像序列,这限制了它们对那些难以用文本或短片段表示的世界部分的理解,并且无法处理复杂的长篇语言和视觉任务。
立即登录