热门
最新
红包
立Flag
投票
同城
我的
发布
SAM2Point
在零样本和可提示的方式下对任何3D进行视频分割
讨论:https://huggingface.co/papers/2408.16768
我们介绍了SAM2Point,这是对Segment Anything Model 2 (SAM 2) 进行零样本和可提示3D分割的初步探索。SAM2Point将任何3D数据解释为一系列多方向的视频,并利用SAM 2进行3D空间分割,而无需进一步训练或2D-3D投影。我们的框架支持各种提示类型,包括3D点、框和掩码,并且可以在各种场景中进行泛化,例如3D物体、室内场景、室外环境和原始稀疏LiDAR。在多个3D数据集(如Objaverse、S3DIS、ScanNet、Semantic3D和KITTI)上的演示展示了SAM2Point的强大泛化能力。据我们所知,我们提供了最忠实的SAM在3D中的实现,这可能为未来在可提示3D分割方面的研究提供起点。
CSDN App 扫码分享
评论
11
- 复制链接
- 举报
下一条:
ReconX使用视频扩散模型从稀疏视图重建任何场景讨论:https://huggingface.co/papers/2408.167673D场景重建的进步已经将现实世界中的2D图像转化为3D模型,从数百张输入照片中生成逼真的3D效果。尽管在密集视图重建场景中取得了巨大成功,但从不足的捕获视图中渲染详细场景仍然是一个不适定的优化问题,通常会在未见区域产生伪影和失真。在本文中,我们提出了ReconX,一种新颖的3D场景重建范式,将模糊的重建挑战重新定义为时间生成任务。关键的见解是释放大型预训练视频扩散模型在稀疏视图重建中的强大生成先验。然而,直接从预训练模型生成的视频帧中,3D视图一致性难以精确保持。为了解决这个问题,在给定有限输入视图的情况下,所提出的ReconX首先构建一个全局点云,并将其编码为上下文空间作为3D结构条件。在该条件的指导下,视频扩散模型然后合成既保留细节又具有高度3D一致性的视频帧,从而确保从不同角度观察场景的一致性。最后,我们通过一种基于置信度的3D高斯溅射优化方案从生成的视频中恢复3D场景。对各种现实世界数据集的广泛实验表明,我们的ReconX在质量和普遍性方面优于最先进的方法。