热门
最新
红包
立Flag
投票
同城
我的
发布
ReconX
使用视频扩散模型从稀疏视图重建任何场景
讨论:https://huggingface.co/papers/2408.16767
3D场景重建的进步已经将现实世界中的2D图像转化为3D模型,从数百张输入照片中生成逼真的3D效果。尽管在密集视图重建场景中取得了巨大成功,但从不足的捕获视图中渲染详细场景仍然是一个不适定的优化问题,通常会在未见区域产生伪影和失真。在本文中,我们提出了ReconX,一种新颖的3D场景重建范式,将模糊的重建挑战重新定义为时间生成任务。关键的见解是释放大型预训练视频扩散模型在稀疏视图重建中的强大生成先验。然而,直接从预训练模型生成的视频帧中,3D视图一致性难以精确保持。为了解决这个问题,在给定有限输入视图的情况下,所提出的ReconX首先构建一个全局点云,并将其编码为上下文空间作为3D结构条件。在该条件的指导下,视频扩散模型然后合成既保留细节又具有高度3D一致性的视频帧,从而确保从不同角度观察场景的一致性。最后,我们通过一种基于置信度的3D高斯溅射优化方案从生成的视频中恢复3D场景。对各种现实世界数据集的广泛实验表明,我们的ReconX在质量和普遍性方面优于最先进的方法。
CSDN App 扫码分享
评论
12
- 复制链接
- 举报
下一条:
【CSGO文本到图像生成中的内容风格组合讨论:https://huggingface.co/papers/2408.16766扩散模型在受控图像生成方面表现出色,这进一步激发了对图像风格迁移的兴趣。现有的工作主要集中在基于无训练的方法(例如图像反演),这是由于特定数据的稀缺。在这项研究中,我们提出了一个内容风格风格化图像三元组的数据构建管道,该管道生成并自动清理风格化数据三元组。基于此管道,我们构建了一个数据集IMAGStyle,这是第一个包含21万张图像三元组的大规模风格迁移数据集,为社区提供探索和研究的资源。借助IMAGStyle,我们提出了CSGO,这是一个基于端到端训练的风格迁移模型,该模型通过独立特征注入明确地解耦内容和风格特征。统一的CSGO实现了图像驱动的风格迁移、文本驱动的风格化合成和文本编辑驱动的风格化合成。大量实验表明,我们的方法在增强图像生成中的风格控制能力方面是有效的。】