WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理
WebLlama是一个研究项目,由McGill University的自然语言处理团队开发。它旨在构建和训练可以通过对话进行网页浏览的智能代理,这些代理基于Llama-3模型进行了优化和微调。
WebLlama基于Meta Al最近发布的Llama-3-8B-Instruct模型进行微调的。这款模型专门为网页导航和对话任务进行了优化,使其能够有效处理与网页交互相关的复杂任务。
WebLlama的性能在多个方面都优于GPT-4V,特别是在与真实世界的网页浏览相关的任务上。
微调使用了名为WebLINX的数据集,该数据集包含超过100,000个网页导航和对话实例,每个实例都由专家注释人员收集和验证。为了训练这款模型,我们选取了其中的24,000个精选子集。这种精心策划的数据集确保了模型训练的高质量和代理的实用性。
该模型现在已经可以在Hugging Face Model Hub上获取,模型名称为McGill-NLP/Llama-3-8B-Web。
同时,用于训练和评估的数据也可以在Huggingface Hub上找到,数据集名称为McGill-NLP/WebLINX。
WebLlama 能够处理连续的对话,听取用户的指令,自动浏览网页,执行搜索、导航和信息检索、完成如预定酒店、购物或查找信息等任务。
它还能在实际的浏览器环境中执行各种动作,如点击、滚动、填写表单等。
WebLlama还可以被训练来从网页收集特定信息,并将其用于不同的应用,比如自动化的数据汇总。