热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_37992011
imxiaohu
1 年前
trueweixin_37992011

LLaVA++:给Phi-3和Llama-3赋予了视觉能力

LLaVA++通过扩展原有的LLaVA模型,将Phi-3和Llama-3进行了整合集成,并为它们增加了视觉处理能力。

经过改进,Phi-3和Llama-3现在变成了Phi-3-V和Llama-3-V,它们能够理解和生成与图像相关的内容。

这些模型现在能够更准确地理解和执行与视觉内容相关的复杂指令。

在处理需要同时理解图像和文本的学术任务时,这些模型展现出了更高的准确性和效率。

GitHub:
https://github.com/mbzuai-oryx/LLaVA-pp

详细介绍:https://xiaohu.ai/p/6873

CSDN App 扫码分享
分享
2
31
  • 复制链接
  • 举报
下一条:
参数高效微调大型模型:全面调研PEFT算法对于处理具有高参数数量的大型语言模型(LLMs)非常有用,因为即使从头开始微调这些模型也可能计算成本高昂,且需要大量资源。https://arxiv.org/abs/2403.14608
立即登录