论文页面:https://huggingface.co/pa-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

论文页面: https://huggingface.co/papers/2407.16655

CSDN App 扫码分享

分享

1

19

复制链接
举报

下一条：

MovieDreamer层级生成用于连贯的长视觉序列最近视频生成的进展主要利用扩散模型生成短时长内容。然而，这些方法在建模复杂叙事和保持角色一致性方面往往不足，而这些对于像电影这样的长篇视频制作是至关重要的。我们提出了MovieDreamer，一种新颖的层级框架，将自回归模型的优势与基于扩散的渲染相结合，开创了具有复杂剧情进展和高视觉保真度的长时长视频生成。我们的方法利用自回归模型来保证全局叙事连贯性，预测视觉标记的序列，然后通过扩散渲染将其转换成高质量的视频帧。这种方法类似于传统的电影制作过程，将复杂的故事分解为可管理的场景拍摄。此外，我们采用多模态剧本，丰富场景描述，提供详细的角色信息和视觉风格，增强场景间的连贯性和角色身份的一致性。我们在各种电影类型中进行了广泛实验，证明我们的方法不仅在视觉和叙事质量上达到了卓越效果，还有效地将生成内容的时长显著延长，超越了当前的能力。