AI 生成视频的技术路线主要经历了四个阶段:循环网络(recurrent networks,RNN)、生成对抗网络(generative adversarial networks,GAN)、自回归模型(autoregressive transformers)、扩散模型(diffusion models)。今天,领先的视频模型大多数是扩散模型,比如 Runway、Pika 等。自回归模型由于更好的多模态能力与扩展性也成为热门的研究方向,比如谷歌在 2023 年 12 月发布的 VideoPoet。Sora 则是一种新的 diffusion transformer 模型。从名字就可以看出,它融合了扩散模型与自回归模型的双重特性。Diffusion transformer 架构由加利福尼亚大学伯克利分校的 William Peebles 与纽约大学的 Saining Xie 在 2023 年提出。如何训练这种新的模型?在技术文档中,OpenAI 提出了一种用 patch(视觉补丁)作为视频数据来训练视频模型的方式,这是从大语言模型的 token 汲取的灵感。Token 优雅地统一了文本的多种模式——代码、数学和各种自然语言,而 patch 则统一了图像与视频。OpenAI 训练了一个网络来降低视觉数据的维度。这个网络接收原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示(latent representation)。Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。OpenAI 还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。OpenAI 表示,过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,而这损耗了视频生成的质量,例如分辨率为 256x256 的 4 秒视频。而将图片与视频数据 patch 化之后,无需对数据进行压缩,就能够对不同分辨率、持续时间和长宽比的视频和图像的原始数据进行训练。