本文点赞过80，评论过50，给大家发红包！目前进度：点赞（3-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

爱编程的小芒果

1 年前

truem0_73787047

本文点赞过80，评论过50，给大家发红包！

目前进度：点赞（36/80），评论（24/50）

https://blog.csdn.net/m0_73787047/article/details/136287145?spm=1001.2014.3001.5501

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条：

我们发现视觉-语言训练需要将图像、视频和纯文本混合在一起。如果没有纯文本（例如openllama v2 mix），模型会过度适应视觉；如果没有图像，视频生成的视觉质量会很低，因为视频通常比图像的视觉质量要低。