你有没有想过,未来的游戏角色、动画人物甚至虚拟现实(VR)中的“自己”,能拥有多么逼真的动作?人类动作建模是计算机视觉和图形学的热门领域,它让虚拟人物的每一个步伐、每一个手势都栩栩如生,广泛应用于游戏开发、电影制作和 3D 内容创作。然而,传统方法有个大问题:动作生成(比如根据文字或音乐创造动作)和动作估计(从视频中重建动作)是两套独立的系统,互不关联。这不仅浪费资源,还限制了技术的可能性。NVIDIA 的研究团队带来了一款“全能选手”——GENMO(GENeralist Model for Human MOtion)。它将动作生成和估计合二为一,用一个模型搞定所有任务,还能处理视频、文本、音乐等多种输入,堪称动作建模界的“瑞士军刀”。GENMO 是什么?简单来说,GENMO 是一个“多才多艺”的人类动作模型。它能干两件事:动作估计:从视频里分析出人的动作轨迹,比如你在街头拍了个跑步视频,GENMO 能精确复原每个动作。动作生成:根据文字描述(“一个人跳舞”)、音乐节奏或关键帧,生成多样化且自然的动作。GENMO 的厉害之处在于,它把这两件事统一在一个框架里,还能处理各种输入信号,比如单目视频、2D 关键点、文本、音乐甚至 3D 关键帧。不管你给它什么,它都能“接招”,生成或估计出流畅的动作。