LLaVA++：给Phi-3和Llama-3赋予了视觉能力L-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_37992011

LLaVA++：给Phi-3和Llama-3赋予了视觉能力

LLaVA++通过扩展原有的LLaVA模型，将Phi-3和Llama-3进行了整合集成，并为它们增加了视觉处理能力。

经过改进，Phi-3和Llama-3现在变成了Phi-3-V和Llama-3-V，它们能够理解和生成与图像相关的内容。

这些模型现在能够更准确地理解和执行与视觉内容相关的复杂指令。

在处理需要同时理解图像和文本的学术任务时，这些模型展现出了更高的准确性和效率。

GitHub：https://github.com/mbzuai-oryx/LLaVA-pp

详细介绍：https://xiaohu.ai/p/6873

CSDN App 扫码分享

分享

2

31

复制链接
举报

下一条：

参数高效微调大型模型：全面调研PEFT算法对于处理具有高参数数量的大型语言模型(LLMs)非常有用，因为即使从头开始微调这些模型也可能计算成本高昂，且需要大量资源。https://arxiv.org/abs/2403.14608