当前对世界建模的方法大多局限于短文本或图像序列，这限制了它们-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

truedevhaoliu

当前对世界建模的方法大多局限于短文本或图像序列，这限制了它们对那些难以用文本或短片段表示的世界部分的理解，并且无法处理复杂的长篇语言和视觉任务。

CSDN App 扫码分享

分享

评论

26

复制链接
举报

下一条：

我们提出了掩码序列打包技术，使得每个图像和文本对只关注对内的令牌。将图像、文本和视频与当前语言模型训练方法中广泛使用的标准序列打包混合，会导致模型性能非常次优。