CogVideoX文本到视频扩散模型与专家Transform-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

发布

_akhaliq

2 年前

truetechsavvyak

CogVideoX

文本到视频扩散模型与专家Transformer

讨论: https://huggingface.co/papers/2408.06072

我们介绍了CogVideoX，这是一种大型扩散Transformer模型，旨在根据文本提示生成视频。为了有效地建模视频数据，我们提出使用3D变分自编码器（VAE）在空间和时间维度上压缩视频。为改进文本和视频的对齐，我们提出了一种带有专家自适应LayerNorm的专家Transformer，以促进两种模态之间的深度融合。通过采用渐进式训练技术，CogVideoX善于生成具有显著动作的连贯长时间视频。此外，我们开发了一套有效的文本到视频数据处理流程，包括各种数据预处理策略和视频字幕方法。这显著有助于提升CogVideoX的性能，改善生成质量和语义对齐。结果表明，CogVideoX在多个机器指标和人工评估中表现出最先进的性能。

下一条：

HeadGAP少样本3D头部头像通过可概括的高斯先验讨论：https://huggingface.co/papers/2408.06019在本文中，我们提出了一种新颖的3D头部头像创建方法，该方法能够从少量在自然环境中的数据中进行概括，实现高保真和可动画的鲁棒性。鉴于这个问题的欠约束性质，整合先验知识是必不可少的。因此，我们提出了一个由先验学习和头像创建阶段组成的框架。先验学习阶段利用从大规模多视角动态数据集中提取的3D头部先验知识，而头像创建阶段则应用这些先验知识进行少样本个性化。我们的方法通过利用基于高斯散点的自动解码网络与基于部分的动态建模，有效地捕捉这些先验知识。我们的方法采用共享身份编码和个性化潜在代码来学习高斯基元的属性。在头像创建阶段，我们通过利用反演和微调策略，实现快速的头部头像个性化。大量实验表明，我们的模型有效地利用了头部先验知识，并成功地将其概括到少样本个性化中，达到了逼真渲染质量、多视角一致性和稳定动画效果。