我们发现视觉-语言训练需要将图像、视频和纯文本混合在一起。如果没有纯文本(例如openllama v2 mix),模型会过度适应视觉;如果没有图像,视频生成的视觉质量会很低,因为视频通常比图像的视觉质量要低。