MaterialFusion增强逆向渲染的材料扩散先验讨论：-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

发布

_akhaliq

2 年前

truetechsavvyak

MaterialFusion

增强逆向渲染的材料扩散先验

讨论：https://huggingface.co/papers/2409.15273

近期在逆向渲染领域的研究表明，利用物体的多视图图像来恢复形状、反照率和材料具有很大的潜力。然而，由于从输入图像中分离出反照率和材料属性的固有挑战，恢复的组件在新的光照条件下往往无法准确渲染。为了解决这个问题，我们引入了MaterialFusion，这是一个增强的传统3D逆向渲染管道，结合了2D纹理和材料属性的先验知识。我们提出了StableMaterial，这是一种2D扩散模型先验，可以细化多光照数据以估计给定输入外观的最可能的反照率和材料。该模型在大约12K个由艺术家设计的合成Blender对象的精选数据集BlenderVault中提取的反照率、材料和重新光照图像数据上进行训练。我们将这种扩散先验与逆向渲染框架结合起来，使用评分蒸馏采样（SDS）来引导反照率和材料的优化，与之前的工作相比，改进了重新光照性能。我们在4个不同光照条件下的合成和真实对象数据集上验证了MaterialFusion的重新光照性能，显示出我们的扩散辅助方法在新颖光照条件下显著改善了重建对象的外观。我们计划公开发布我们的BlenderVault数据集，以支持该领域的进一步研究。

下一条：

潜影：面向大规模语言与视觉模型的隐性改进讨论：https://huggingface.co/papers/2409.14713视觉指令调优的成功加速了大规模语言与视觉模型（LLVMs）的发展。遵循指令调优的大规模语言模型（LLMs）的扩展规律，LLVMs 进一步增加了它们的规模，达到了26B、34B甚至80B参数。尽管模型规模的增大带来了显著的性能提升，但同时也需要大量的硬件资源来进行训练和推理。因此，自然存在对高效的LLVMs的强烈需求，这类模型在较小规模下实现了大模型的性能。为满足这一需求，我们提出了一种新的高效LLVM家族，名为Phantom，模型规模分别为0.5B、1.8B、3.8B和7B参数，显著提升了有限结构内的学习能力。通过在多头自注意力（MHSA）期间暂时增加隐性隐藏维度，使LLVMs能够在隐性层面上预备更多的视觉语言知识理解，而无需实质性地增加物理模型规模。为了最大化其优势，我们引入了Phantom优化（PO），结合自回归监督微调（SFT）和类似直接偏好优化（DPO）的概念，有效地遵循正确答案，同时消除错误和模棱两可的答案。Phantom在众多较大的开源和闭源LLVMs中表现出色，使其成为高效LLVMs领域的领先解决方案。