我们发现视觉-语言训练需要将图像、视频和纯文本混合在一起。如-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

truedevhaoliu

我们发现视觉-语言训练需要将图像、视频和纯文本混合在一起。如果没有纯文本（例如openllama v2 mix），模型会过度适应视觉；如果没有图像，视频生成的视觉质量会很低，因为视频通常比图像的视觉质量要低。

CSDN App 扫码分享

分享

评论

14

复制链接
举报

下一条：

我们开源了一系列具有70亿参数的模型，这些模型能够处理超过100万令牌的长文本文件（LWM-Text, LWM-Text-Chat）和视频（LWM, LWM-Chat），并且提供了用于训练和推理的代码库。这些模型可以在 https://huggingface.co/LargeWorldModel 上找到。