热门

最新

红包

立Flag

投票

同城

我的

发布
devhaoliu
刘haohao
1 年前
truedevhaoliu

当前对世界建模的方法大多局限于短文本或图像序列,这限制了它们对那些难以用文本或短片段表示的世界部分的理解,并且无法处理复杂的长篇语言和视觉任务。

CSDN App 扫码分享
分享
评论
26
  • 复制链接
  • 举报
下一条:
我们提出了掩码序列打包技术,使得每个图像和文本对只关注对内的令牌。将图像、文本和视频与当前语言模型训练方法中广泛使用的标准序列打包混合,会导致模型性能非常次优。
立即登录