Google DeepMind 将Gemini 1.5 Pro安装到机器人上
实现机器人的记忆导航能力
通过Gemini 1.5 Pro 的多模态长上下文窗口能力,机器人能够记住特定区域的关键位置并导航到指定位置。
机器人在9000多平方英尺的区域内执行57种任务,成功率达到了约90%。
实验表明,机器人能够使用人类指令、视频导览和常识推理,成功记住和找到特定位置。
使用的多模态指令导航与长上下文VLMs和拓扑图”的方法
这些机器人在先前的项目中已熟悉了办公室环境,并通过“多模态指令导航演示”熟悉了空间。