Google推出了以扩散模型控制空间和时间的研究我们推出了4DiM,一种级联扩散模型用于4D新视角合成(NVS),该模型以一个或多个通用场景图像及一组相机姿态和时间戳为条件。为了克服由于4D训练数据有限带来的挑战,我们倡导在3D(带有相机姿态)、4D(姿态+时间)和视频(有时间但无姿态)数据上进行联合训练,并提出了一种新的架构来实现这一目标。我们还提倡使用单目度量深度估计器校准基于结构光法(SfM)的姿态数据,以实现度量尺度相机控制。为了评估模型,我们引入了新的评估指标,以丰富和克服当前评估方案的不足,展示了在保真度和姿态控制方面相对于现有的3D NVS扩散模型的最新成果,同时增加了处理时间动态的能力。4DiM还用于改进全景拼接、基于姿态的视频到视频翻译以及其他多个任务。