热门
最新
红包
立Flag
投票
同城
我的
发布
Zero123++:从单一图片,生成多张从不同角度看这个物体或场景的图像。
比如你给它一张正面看的苹果图片,它能给你生成这个苹果从侧面、上面、下面看的图片。
而且生成的多角度图片看起来非常真实,并且从各个角度看都很协调。
用户还可以更细致地控制生成图片的各个方面,比如形状、大小等。
工作原理:
1、条件与训练方案:Zero123++ 利用预训练的2D生成模型(如StableDiffusion)作为基础,并通过多种条件和训练方案进行微调,以生成多视图图像。
2、注意力机制:它添加了一个额外的条件分支,并修改了自注意力层的键(K)和值(V)矩阵,以接受额外的条件图像。让模型更专注于输入图片的重要部分,这样生成的多角度图片就更准确。
3、全局条件:在原始的Stable Diffusion模型中,全局条件主要来自文本嵌入。Zero123++ 引入了一个可训练的线性引导机制(来自FlexDiffuse),用于在最小化微调程度的同时,将全局图像条件纳入模型中。除了输入图片,它还会考虑其他全局信息(比如文本描述),以生成更符合要求的图片。
4、Depth ControlNet:这是一个深度控制网络,用于控制生成过程中的几何结构。它通过渲染与目标RGB图像相对应的标准化线性深度图像,并训练ControlNet来控制Zero123++的几何结构。用于更精细地控制生成图片的形状和结构。
GitHub:https://github.com/SUDO-AI-3D/zero123plus
论文:https://arxiv.org/abs/2310.15110
Demo:https://huggingface.co/spaces/sudo-ai/zero123plus-demo-space
CR:互联网的那点事
AI资讯
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
LCMs:是一种新型的图像生成模型,专门用于生成高分辨率图像。LCMs的核心思想是通过最少的步骤进行快速推理,同时生成高质量的图像。这是因为模型在潜在空间中进行了高度优化的预测。LCMs能够在2~4步,甚至一步内生成高质量的768 x 768分辨率的图像。LCMs可以从任何预训练的Stable Diffusion(SD)模型中提炼出来,提炼过程非常高效,只需要4,000个训练步骤(约32个A100 GPU小时)。项目及演示:https://latent-consistency-models.github.ioGitHub:https://github.com/luosiallen/latent-consistency-model论文:https://arxiv.org/abs/2310.04378CR:互联网的那点事
