书店漫步，打卡西西弗书店-CSDN blink-领先的开发者技术社区

网页自主操作智能体的基准测试也有论文和数据了，来自卡耐基梅隆大学。VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks摘要：自主智能体在网络环境中规划、推理和执行任务的能力，为计算机任务的自动化开辟了新的可能性。然而，大多数现有的评估标准都集中在文本处理的智能体上，忽略了许多依赖视觉信息才能有效解决的任务。考虑到计算机界面大多设计来满足人类的视觉感知，视觉信息往往以一种纯文本模型难以有效捕捉的方式补充文本信息。为了解决这一问题，我们推出了VisualWebArena（视觉网络竞技场），这是一个专门设计来评估多模态网络智能体在现实的视觉相关任务上表现的基准评估工具。VisualWebArena包含了一系列多样且复杂的网络任务，用于评价自主多模态智能体的各种能力。要想在这个评估中表现出色，智能体需要准确处理图像和文本输入，理解自然语言指令，并在网站上执行操作以实现用户定义的目标。我们对基于最新的大语言模型（LLM）的自主智能体进行了全面评估，包括多种多模态模型。通过深入的定量和定性分析，我们识别出了纯文本LLM智能体的若干限制，并揭示了最先进的多模态语言智能体在能力上的不足。VisualWebArena为多模态自主语言智能体的评估提供了一个框架，并为构建更强大的网络自主智能体提供了洞察。论文：

https://arxiv.org/abs/2401.13649

https://jykoh.com/vwa