热门
最新
红包
立Flag
投票
同城
我的
发布
Optimus-1
混合多模态记忆增强的智能体在长期任务中表现卓越
讨论:https://huggingface.co/papers/2408.03615
构建通用智能体是人工智能领域的一个长期愿景。现有智能体在许多领域取得了显著进展,但它们在开放世界中的长期任务完成情况仍然不尽如人意。我们认为这是由于缺乏必要的世界知识和多模态经验,这些知识和经验可以指导智能体完成各种长期任务。本文中,我们提出了一种混合多模态记忆模块来应对上述挑战。该模块1) 将知识转化为分层有向知识图,让智能体能够显式地表示和学习世界知识,2) 将历史信息总结为抽象多模态经验池,为智能体提供丰富的上下文学习参考。在混合多模态记忆模块的基础上,构建了多模态智能体Optimus-1,配有专门的知识引导规划器和经验驱动反射器,在面对Minecraft中的长期任务时,能够更好地进行规划和反思。大量实验结果表明,Optimus-1在具有挑战性的长期任务基准上显著优于所有现有智能体,并在许多任务中表现出接近人类的水平。此外,我们引入了多种多模态大语言模型(MLLMs)作为Optimus-1的骨干。实验结果表明,借助混合多模态记忆模块,Optimus-1表现出强大的泛化能力,在许多任务上超过了GPT-4V的基准表现。
CSDN App 扫码分享
1
20
- 复制链接
- 举报
下一条:
Openstory++一个大规模数据集和实例感知开放域视觉讲故事的基准讨论:https://huggingface.co/papers/2408.03695最近的图像生成模型在从简短的标题生成高质量图像方面表现出色。然而,当遇到较长的上下文时,它们无法在多张图像之间保持多个实例的一致性。这种不一致主要是因为现有训练数据集中缺乏细粒度实例特征标签。为了解决这些问题,我们引入了Openstory++,这是一个大规模数据集,结合了额外的实例级注释以及图像和文本。此外,我们开发了一种训练方法,强调以实体为中心的图像-文本生成,确保模型能够有效地交织视觉和文本信息。具体来说,Openstory++简化了从开放域视频中提取关键帧的过程,利用视听模型生成标题,然后通过大型语言模型进行润色以保持叙述连贯性。与之前的数据集相比,Openstory++提供了更广泛的开放域资源,其中包括自动标题、高分辨率图像(针对实例数量进行了调整)和用于时间一致性的广泛帧序列。此外,我们推出了Cohere-Bench,这是一个开创性的基准框架,用于评估在提供长多模态上下文时的图像生成任务,包括保持背景、风格和实例在给定上下文中的一致性。与现有基准相比,我们的工作填补了多模态生成的关键空白,推动了能够熟练生成和解释复杂叙述的模型的发展。在Cohere-Bench中进行的实验证实,Openstory++在培养高质量视觉讲故事模型方面的优越性,提高了它们解决开放域生成任务的能力。