LLaVA++：赋予Phi-3和Llama-3视觉能力LLa-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

LLaVA++ ：赋予Phi-3 和 Llama-3 视觉能力

LLaVA++在通过扩展原有的LLaVA模型，将 Phi-3 和Llama-3 进行整合集成，并赋予它们视觉处理能力。

通过改造，诞生了Phi-3-V 和 Llama-3-V，它们现在也能理解和生成与图像相关的内容。

模型能够更准确地理解和执行与视觉内容相关的复杂指令。

在处理需要理解图像和文本的学术任务时，模型展现了更高的准确率和效率。

GitHub：https://github.com/mbzuai-oryx/LLaVA-pp…

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

WebLlama：基于 Llama-3-8B 能通过对话进行网页浏览的智能代理WebLlama是一个研究项目，由McGill University的自然语言处理团队开发。它旨在构建和训练可以通过对话进行网页浏览的智能代理，这些代理基于Llama-3模型进行了优化和微调。WebLlama基于Meta Al最近发布的Llama-3-8B-Instruct模型进行微调的。这款模型专门为网页导航和对话任务进行了优化，使其能够有效处理与网页交互相关的复杂任务。WebLlama的性能在多个方面都优于GPT-4V，特别是在与真实世界的网页浏览相关的任务上。微调使用了名为WebLINX的数据集，该数据集包含超过100,000个网页导航和对话实例，每个实例都由专家注释人员收集和验证。为了训练这款模型，我们选取了其中的24,000个精选子集。这种精心策划的数据集确保了模型训练的高质量和代理的实用性。该模型现在已经可以在Hugging Face Model Hub上获取，模型名称为McGill-NLP/Llama-3-8B-Web。同时，用于训练和评估的数据也可以在Huggingface Hub上找到，数据集名称为McGill-NLP/WebLINX。WebLlama 能够处理连续的对话，听取用户的指令，自动浏览网页，执行搜索、导航和信息检索、完成如预定酒店、购物或查找信息等任务。它还能在实际的浏览器环境中执行各种动作，如点击、滚动、填写表单等。WebLlama还可以被训练来从网页收集特定信息，并将其用于不同的应用，比如自动化的数据汇总。