GoogleDeepMind将Gemini1.5Pro安装到-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

Google DeepMind 将Gemini 1.5 Pro安装到机器人上

实现机器人的记忆导航能力

通过Gemini 1.5 Pro 的多模态长上下文窗口能力，机器人能够记住特定区域的关键位置并导航到指定位置。

机器人在9000多平方英尺的区域内执行57种任务，成功率达到了约90%。

实验表明，机器人能够使用人类指令、视频导览和常识推理，成功记住和找到特定位置。

使用的多模态指令导航与长上下文VLMs和拓扑图”的方法

这些机器人在先前的项目中已熟悉了办公室环境，并通过“多模态指令导航演示”熟悉了空间。

AI资讯

CSDN App 扫码分享

1

打赏

复制链接
举报

下一条：

【视频帧插值的一般化隐式运动建模运动建模在基于流的视频帧插值（VFI）中至关重要。现有的范式要么考虑双向流的线性组合，要么直接预测给定时间戳的双向流，而不探索有利的运动先验，因此缺乏有效建模现实世界视频中时空动态的能力。为了解决这一限制，在本研究中，我们引入了一种新颖且有效的运动建模方法——一般化隐式运动建模（GIMM）。具体来说，为了使GIMM成为一种有效的运动建模范式，我们设计了一条运动编码管道，从预训练的流估计器中提取双向流来建模时空运动潜变量，有效地表示输入特定的运动先验。然后，我们通过一个自适应的基于坐标的神经网络，在输入的两个相邻帧之间隐式地预测任意时间步长的光流，以时空坐标和运动潜变量作为输入。我们的GIMM可以与现有的基于流的VFI工作平滑集成，而无需进一步修改。我们展示了GIMM在VFI基准测试中表现优于当前的最先进方法。】

立即登录