多模态基础世界模型用于通用的具身智能体。(https://arxiv.org/pdf/2406.18043)在这篇论文中,我们介绍了GenRL,一种基于世界模型的方法,用于将视觉-语言提示融入具身领域,并在想象中学习相应的行为。