热门
最新
红包
立Flag
投票
同城
我的
发布
我们介绍了PortraitGen,这是一种强大的肖像视频编辑方法,利用多模态提示实现了一致且富有表现力的风格化。传统的肖像视频编辑方法通常在3D和时间一致性上存在问题,并且在渲染质量和效率上表现欠佳。为了解决这些问题,我们将肖像视频帧提升到统一的动态3D高斯场中,从而确保帧之间的结构和时间一致性。此外,我们设计了一种新颖的神经高斯纹理机制,不仅能够实现复杂的风格编辑,还能达到超过100FPS的渲染速度。我们的方法通过从大规模2D生成模型中提取的知识来整合多模态输入。我们的系统还包含表情相似性指导和面部感知肖像编辑模块,有效地缓解了与迭代数据集更新相关的降解问题。大量实验表明,我们的方法在时间一致性、编辑效率和优越的渲染质量方面表现出色。所提出方法的广泛适用性通过各种应用验证,包括文本驱动的编辑、图像驱动的编辑和重新照明,凸显了其在视频编辑领域推进的巨大潜力。
讨论:https://huggingface.co/papers/2409.13591
CSDN App 扫码分享
1
20
- 复制链接
- 举报
下一条:
MuCodec超低比特率音乐编解码器讨论:https://huggingface.co/papers/2409.13216音乐编解码器是音频编解码研究的重要方面,超低比特率压缩在音乐传输和生成中具有重要意义。由于音乐背景的复杂性和人声的丰富性,仅依靠建模语义或声学信息无法有效地重建包含人声和背景的音乐。为了解决这个问题,我们提出了MuCodec,专门针对超低比特率的音乐压缩和重建任务。MuCodec 使用 MuEncoder 提取声学和语义特征,通过 RVQ 离散化,并通过流匹配获取 Mel-VAE 特征。然后使用预训练的 MEL-VAE 解码器和 HiFi-GAN 重建音乐。MuCodec 可以在超低(0.35kbps)或高比特率(1.35kbps)下重建高保真音乐,在主观和客观指标上均取得了迄今为止最好的结果。