【从100万字节的上下文语言模型开始,我们在混合格式上进行训练:图像、视频和文本的多种格式(文本-图像、图像-文本、视频-文本、文本-视频等),使用自回归预测方法。本质上是以多模态的方式进行任意到任意的预测。】