热门

最新

红包

立Flag

投票

同城

我的

发布
devhaoliu
刘haohao
1 年前
truedevhaoliu

我们发现视觉-语言训练需要将图像、视频和纯文本混合在一起。如果没有纯文本(例如openllama v2 mix),模型会过度适应视觉;如果没有图像,视频生成的视觉质量会很低,因为视频通常比图像的视觉质量要低。

CSDN App 扫码分享
分享
评论
14
  • 复制链接
  • 举报
下一条:
我们开源了一系列具有70亿参数的模型,这些模型能够处理超过100万令牌的长文本文件(LWM-Text, LWM-Text-Chat)和视频(LWM, LWM-Chat),并且提供了用于训练和推理的代码库。这些模型可以在 https://huggingface.co/LargeWorldModel 上找到。
立即登录