AI生成视频的技术路线主要经历了四个阶段：循环网络（recu-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueuniverssky2015

AI 生成视频的技术路线主要经历了四个阶段：循环网络（recurrent networks，RNN）、生成对抗网络（generative adversarial networks，GAN）、自回归模型（autoregressive transformers）、扩散模型（diffusion models）。今天，领先的视频模型大多数是扩散模型，比如 Runway、Pika 等。自回归模型由于更好的多模态能力与扩展性也成为热门的研究方向，比如谷歌在 2023 年 12 月发布的 VideoPoet。Sora 则是一种新的 diffusion transformer 模型。从名字就可以看出，它融合了扩散模型与自回归模型的双重特性。Diffusion transformer 架构由加利福尼亚大学伯克利分校的 William Peebles 与纽约大学的 Saining Xie 在 2023 年提出。如何训练这种新的模型？在技术文档中，OpenAI 提出了一种用 patch（视觉补丁）作为视频数据来训练视频模型的方式，这是从大语言模型的 token 汲取的灵感。Token 优雅地统一了文本的多种模式——代码、数学和各种自然语言，而 patch 则统一了图像与视频。OpenAI 训练了一个网络来降低视觉数据的维度。这个网络接收原始视频作为输入，并输出一个在时间和空间上都被压缩的潜在表示（latent representation）。Sora 在这个压缩的潜在空间上进行训练，并随后生成视频。OpenAI 还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。OpenAI 表示，过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸，而这损耗了视频生成的质量，例如分辨率为 256x256 的 4 秒视频。而将图片与视频数据 patch 化之后，无需对数据进行压缩，就能够对不同分辨率、持续时间和长宽比的视频和图像的原始数据进行训练。

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

开源免费的Windows右键菜单管理工具今天分享一个C#开源、免费、纯粹的Windows右键菜单管理工具：ContextMenuManager。