我们介绍了PortraitGen，这是一种强大的肖像视频编辑-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

我们介绍了PortraitGen，这是一种强大的肖像视频编辑方法，利用多模态提示实现了一致且富有表现力的风格化。传统的肖像视频编辑方法通常在3D和时间一致性上存在问题，并且在渲染质量和效率上表现欠佳。为了解决这些问题，我们将肖像视频帧提升到统一的动态3D高斯场中，从而确保帧之间的结构和时间一致性。此外，我们设计了一种新颖的神经高斯纹理机制，不仅能够实现复杂的风格编辑，还能达到超过100FPS的渲染速度。我们的方法通过从大规模2D生成模型中提取的知识来整合多模态输入。我们的系统还包含表情相似性指导和面部感知肖像编辑模块，有效地缓解了与迭代数据集更新相关的降解问题。大量实验表明，我们的方法在时间一致性、编辑效率和优越的渲染质量方面表现出色。所提出方法的广泛适用性通过各种应用验证，包括文本驱动的编辑、图像驱动的编辑和重新照明，凸显了其在视频编辑领域推进的巨大潜力。

讨论：https://huggingface.co/papers/2409.13591

CSDN App 扫码分享

分享

1

20

复制链接
举报

下一条：

MuCodec超低比特率音乐编解码器讨论：https://huggingface.co/papers/2409.13216音乐编解码器是音频编解码研究的重要方面，超低比特率压缩在音乐传输和生成中具有重要意义。由于音乐背景的复杂性和人声的丰富性，仅依靠建模语义或声学信息无法有效地重建包含人声和背景的音乐。为了解决这个问题，我们提出了MuCodec，专门针对超低比特率的音乐压缩和重建任务。MuCodec 使用 MuEncoder 提取声学和语义特征，通过 RVQ 离散化，并通过流匹配获取 Mel-VAE 特征。然后使用预训练的 MEL-VAE 解码器和 HiFi-GAN 重建音乐。MuCodec 可以在超低（0.35kbps）或高比特率（1.35kbps）下重建高保真音乐，在主观和客观指标上均取得了迄今为止最好的结果。