模型：https://huggingface.co/coll-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

模型：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

CSDN App 扫码分享

分享

1

23

复制链接
举报

下一条：

莲花基于扩散的高质量密集预测视觉基础模型利用预训练的文本到图像扩散模型的视觉先验为增强密集预测任务中的零样本泛化提供了一个有前途的解决方案。然而，现有的方法往往不加批判地使用原始的扩散公式，这可能由于密集预测和图像生成之间的根本区别而并不理想。在本文中，我们对密集预测中的扩散公式进行了系统的分析，重点关注质量和效率。我们发现，原始的用于图像生成的参数化类型，即学习预测噪声，对密集预测有害；多步噪声/去噪扩散过程也是不必要的且难以优化。基于这些见解，我们引入了莲花，一个基于扩散的视觉基础模型，具有一个简单而有效的密集预测适应协议。具体来说，莲花被训练为直接预测注解而不是噪声，从而避免了有害的方差。我们还将扩散过程重新制定为单步过程，简化了优化并显著提高了推理速度。此外，我们引入了一种称为细节保留器的新调优策略，能够实现更准确和细粒度的预测。在不扩大训练数据或模型容量的情况下，莲花在各种数据集上的零样本深度和法线估计中实现了SOTA（最先进）性能。它还显著提高了效率，比大多数现有的基于扩散的方法快数百倍。