在一个大型数据集上训练了100万上下文的语言模型,该数据集包含多样化的视觉和语言序列,并采用了掩码序列打包和环形注意力(RingAttention)技术,LWM(语言、图像、视频理解与生成模型)能够执行语言、图像和视频的理解与生成任务。LWM能够进行文本到图像的生成。