那转瞬即逝的每一个瞬间，我都想要珍惜

扩散模型（Diffusion model）

发布于 2025-01-16 1021 次阅读预计阅读时间: 7 分钟

扩散模型的运作原理

如下图，时间步step是自己定义的，例如这里1000步就是纯白噪声，1步就是清晰的图片，从step1000到1的过程就是去噪，也叫做reverse process（反转处理）。

扩散模型的原理正如米开朗基罗说的一句话：“雕像本来就在大理石里面，我只不过把多余的部分去掉了”。

需要注意的是，在上图中每个去噪模型（Denoise）看起来都一样，实际上是不能完全一样的，因为每一步的输入图片都是不同的，比如白噪声和已经比较清晰的图片是不能用同样的方法处理的。因此Denoise的输入除了当前时间步的图片，还要加上当前的时间步（如下图）。你可以理解为输入的时间步越大，当前的图片噪声就越大。Denoise模型就能做出不同的回应。

Denoise的内部构造

Denoise在内部会根据输入的图片和时间步预测出该图片的噪声（分布），然后拿输入的图片减去这个噪声，就得到了输出。

那为什么要预测噪声而不是直接输出带噪声的目标图片呢。因为预测噪声和预测带有小猫的噪声图片难度是不一样的。

那么，这个噪声分布怎么得到呢？我们知道，想要预测出噪声，就要知道ground truth（即人工测量的真实值，类似nlp里的标签），而这个ground truth其实人为创造的。

具体的训练过程是：在数据集中拿出图片，然后加上随机sample的一组噪声，得到step2的图片；然后再随机sample一组噪声加上去，得到step3......以此类推，最后完全看不出原来图片，这个加噪声的过程称为Forward Process（前向处理）或者diffusion process（扩散）。如下图

在加好噪声之后，你就得到了noise predict的训练资料了。

例如，对于step2，加了噪声后的图片和step2就是训练网络的输入（蓝色部分），人工在这一步加的噪声就是训练网络需要生成的内容，即ground truth（红色部分）。

对于带文字的模型，比如文生图模型，那么训练的数据就是成对的文字-图片，并且在训练noise predict的时候也要额外增加“文字”这个输入源。如下图

所以在接受了巨量“文字-图片”的训练过程后，你就会发现一开始用的米开朗基罗那个比喻太恰当了，因为一张纯白噪音图片里面可以包含任何内容，只要正确的一步步去噪就可以了。

stable diffusion

这节讲的是推理过程，即如何从文字→图像。

大致的过程如下图，输入的文字经过文字编码得到一系列向量，然后和一个噪声（图中粉红部分）一起输入进生成模型（generation model，这里用扩散模型），输出一个带有“文字信息”的压缩的噪声图片，这是一个中间产物，这个图片可以能看懂也可以看不懂。最后将这个中间产物丢进解码器输出最终的图像。

不止是stable diffusion，目前几乎所有的文生图模型都是这个套路（三个部分），其中图中用数字标出的这三个模型是三个独立的模型，需要单独训练的。

从下面这个图可以看出，text Encoder的大小对结果有着很大的影响。可以理解为encoder的size越大，模型就越可能输出自然的语言，对训练中没见过的文字-图片信息也能很好的应对。现在这个text encoder部分用GPT模型比较多，也有用BERT的。

再看右边这个图，表明U-Net（即扩散模型中noise predict的大小）的size对模型的结果反而没什么影响。

FID

FID，是生成的图片的一个评价指标。它用另一个CNN网络来评估，将原图和生成的图像都放进该CNN模型，得到一系列分类，然后评估两者的距离，通常会在很多张图片上进行评估，例如FID-10k就是在10000张图后再进行距离计算。

CLIP

即contrastive language-image pre-training的缩写，也是评价生成图片的指标之一。他将数据集中成对的“文字-图片”分别做encoder，如果描述正确，那么encoder后的向量距离就会非常近，以此来判断生成的图片是否符合输入的文字要求。

Decoder部分

generation model这块模型的训练是必须要用到配对的“文字-图片”数据集的，但Decoder部分只需要图片数据就可以了。

如果“中间产物”是低像素小图的话，只需要把图片缩小，就有Decoder的训练数据了。如果“中间产物”是潜空间表示（latent representation），那需要将图片用encoder转换成潜空间，然后用Decoder还原，还原的图片和原图越近越好，最后把训练好的Decoder拿出来用。

generation model部分

这一块的训练方法第一节的时候就讲过了，不过有一点不同，我们需要将图片先用encoder转为潜空间，然后用这个潜空间来加噪声。加完噪声之后训练也是一样，输入时间步，该步的加了噪声的潜空间图片，和经过encoder的文字向量，希望输出的是该步的噪声。

上一篇文章

AI绘画教程

下一篇文章

扩散模型在文本生成领域的应用：综述

查看评论 - 无~

Comments NOTHING

暂无评论

取消回复

To trace the bright moonlight

嘿嘿嘿ヾ(≧∇≦*)ゝ

bilibili~	Tieba	(=・ω・=)

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

保留个人信息

隐藏

变装