热门
最新
红包
立Flag
投票
同城
我的
发布
刘haohao
1 年前
truedevhaoliu
当前对世界建模的方法大多局限于短文本或图像序列,这限制了它们对那些难以用文本或短片段表示的世界部分的理解,并且无法处理复杂的长篇语言和视觉任务。
下一条:
我们提出了掩码序列打包技术,使得每个图像和文本对只关注对内的令牌。将图像、文本和视频与当前语言模型训练方法中广泛使用的标准序列打包混合,会导致模型性能非常次优。
立即登录