热门
最新
红包
立Flag
投票
同城
我的
发布
LLaVA++:给Phi-3和Llama-3赋予了视觉能力
LLaVA++通过扩展原有的LLaVA模型,将Phi-3和Llama-3进行了整合集成,并为它们增加了视觉处理能力。
经过改进,Phi-3和Llama-3现在变成了Phi-3-V和Llama-3-V,它们能够理解和生成与图像相关的内容。
这些模型现在能够更准确地理解和执行与视觉内容相关的复杂指令。
在处理需要同时理解图像和文本的学术任务时,这些模型展现出了更高的准确性和效率。
GitHub:https://github.com/mbzuai-oryx/LLaVA-pp
详细介绍:https://xiaohu.ai/p/6873
CSDN App 扫码分享
2
31
- 复制链接
- 举报