热门
最新
红包
立Flag
投票
同城
我的
发布
V^3: 通过可流媒体的二维动态高斯在移动设备上观看体积视频
讨论地址: https://huggingface.co/papers/2409.13648
像观看二维视频一样无缝体验高保真体积视频是一个长期以来的梦想。然而,当前的动态3DGS方法尽管渲染质量很高,但由于计算和带宽限制,在移动设备上流媒体播放时面临挑战。本文介绍了一种名为V3(Viewing Volumetric Videos)的新方法,通过流媒体动态高斯实现高质量的移动渲染。我们的关键创新在于将动态3DGS视为二维视频,使得可以使用硬件视频编码器。此外,我们提出了一种两阶段的训练策略,以快速训练速度降低存储需求。第一阶段采用哈希编码和浅层MLP学习运动,然后通过剪枝减少高斯的数量以满足流媒体需求,而第二阶段使用残差熵损失和时间损失微调其他高斯属性,以改善时间连续性。这种策略解耦了运动和外观,在保持高渲染质量的同时,具有紧凑的存储需求。同时,我们设计了一个多平台播放器来解码和渲染二维高斯视频。大量实验表明,V3的有效性,能够在常见设备上实现高质量的渲染和流媒体播放,超越了其他方法,前所未有地在移动设备上实现动态高斯的流媒体播放。我们的伴随播放器为用户提供了前所未有的体积视频体验,包括平滑滚动和即时分享。
CSDN App 扫码分享
评论
8
- 复制链接
- 举报
下一条:
我们介绍了PortraitGen,这是一种强大的肖像视频编辑方法,利用多模态提示实现了一致且富有表现力的风格化。传统的肖像视频编辑方法通常在3D和时间一致性上存在问题,并且在渲染质量和效率上表现欠佳。为了解决这些问题,我们将肖像视频帧提升到统一的动态3D高斯场中,从而确保帧之间的结构和时间一致性。此外,我们设计了一种新颖的神经高斯纹理机制,不仅能够实现复杂的风格编辑,还能达到超过100FPS的渲染速度。我们的方法通过从大规模2D生成模型中提取的知识来整合多模态输入。我们的系统还包含表情相似性指导和面部感知肖像编辑模块,有效地缓解了与迭代数据集更新相关的降解问题。大量实验表明,我们的方法在时间一致性、编辑效率和优越的渲染质量方面表现出色。所提出方法的广泛适用性通过各种应用验证,包括文本驱动的编辑、图像驱动的编辑和重新照明,凸显了其在视频编辑领域推进的巨大潜力。讨论:https://huggingface.co/papers/2409.13591