热门

最新

红包

立Flag

投票

同城

我的

发布
m0_73787047
爱编程的小芒果
1 年前
truem0_73787047

本文点赞过80,评论过50,给大家发红包!

目前进度:点赞(36/80),评论(24/50)

https://blog.csdn.net/m0_73787047/article/details/136287145?spm=1001.2014.3001.5501

CSDN App 扫码分享
分享
评论
1
打赏
  • 复制链接
  • 举报
下一条:
我们发现视觉-语言训练需要将图像、视频和纯文本混合在一起。如果没有纯文本(例如openllama v2 mix),模型会过度适应视觉;如果没有图像,视频生成的视觉质量会很低,因为视频通常比图像的视觉质量要低。
立即登录