自主评估与精炼数字代理通过仅使用基于VLM的评估器,提高了WebArena的GPT4 SotA代理性能30%以上,以及iOS中的CogAgent性能75%以上,无需任何额外监督仓库:https://github.com/Berkeley-NLP/Agent-Eval-Refine摘要:https://arxiv.org/abs/2404.06474