檀越@新空间的动态-CSDN blink-领先的开发者技术社区

微软研究员介绍了VASA，这是一个用于生成逼真的会说话的人脸的框架，它通过一张静态图像和一段语音音频剪辑赋予了引人注目的视觉情感技巧（VAS）。他们的首款模型VASA-1实现了精准的唇部同步，并捕捉了广泛的面部细微表情和自然的头部运动，增强了真实感和生动感。关键创新包括用于整体面部动态和头部运动生成的基于扩散的模型，该模型在面部潜在空间内开发，并使用来自视频的表情丰富且解耦的面部潜在空间。VASA旨在生成逼真的视频，展示给定面孔随所提供音频说话的场景。它强调清晰的图像帧、精确的唇部同步、富有表现力的面部动态和自然的头部姿态。可选的控制信号引导生成过程。整体面部动态和头部运动是在一个受音频条件约束的潜在空间中产生的。构建了一个面部潜在空间，并利用扩散变换器进行运动生成。如音频特征和凝视方向等条件信号提高了可控性。在推理过程中，提取外观和身份特征，并生成运动序列以产生最终视频。论文：

https://arxiv.org/abs/2404.10667

https://www.microsoft.com/en-us/research/project/vasa-1/@passage