与GAN FLOW VAE类似扩散模型是一种生成模型。

需要用到的概率事实:

  1. 条件概率
  2. 马尔科夫链的转移公式
  3. 高斯分布的KL散度公式
    KL(P,Q)=logσ2σ1+σ2+(μ1−μ2)22σ22−12(其中P.Q为一维高斯分布)KL(P,Q)=log\frac{\sigma_2}{\sigma_1}+\frac{\sigma^2+(\mu_1-\mu_2)^2}{2\sigma_2^2} -\frac12 { \tiny(其中P.Q为一维高斯分布)}KL(P,Q)=logσ1σ2+2σ22σ2+(μ1μ2)221(P.Q)
  4. 重参数技巧(从特殊高斯分布中采样点时不可导,将采样过程变为从标准分布N(0,1)采样的结果常量Z再用μ\muμ,σ\sigmaσ变为目标高斯分布)

Diffusion

项目 描述 / p(⋅)p( \cdot )p()
XTX_TXT 各向同性的高斯分布N(XT;0,I)N(X_T;0,I)N(XT;0,I)
X0X_0X0 训练数据集(的分布)
  • ⇐\Leftarrow:扩散过程,逐渐添加高斯噪声,有序到无序,熵增过程
    q(x1:T∣x0):=Πt=1Tq(xt∣xt−1)其中q(xt∣xt−1):=N(xt;1−βtxt−1,βtI)q(x_{1:T}|x_0):=\Pi_{t=1}^T q(x_t|x_{t-1}) \\ 其中q(x_t|x_{t-1}):=N(x_t;{\sqrt{1-\beta_t}x_{t-1}},\beta_t I) q(x1:Tx0):=Πt=1Tq(xtxt1)q(xtxt1):=N(xt;1βt

    xt1
    ,βtI)

    βt∈(0,1)可以如参考文献33设置为冲参数化的参数或直接设置为学习率一样的超参数所以正向过程是不含参数的。\tiny \beta_t \in (0,1)可以如参考文献33设置为冲参数化的参数或直接设置为学习率一样的超参数\\所以正向过程是不含参数的。βt(0,1)33

扩散过程的一个显著特性是,它允许以闭合形式在任意时间步t对xt进行采样:
令at=1−βt⇓aˉt=Πs=1tasq(xt∣x0)=N(xt;aˉtx0,(1−aˉt)I)令a_t = 1-\beta_t \Downarrow \bar a_t=\Pi_{s=1}^t a_s \\ q(x_t|x_0)=N(x_t;\sqrt{\bar a_t}x_0,(1-\bar a_t)I)at=1βtaˉt=Πs=1tasq(xtx0)=N(xt;aˉt

x0,(1aˉt)I)

上式的推导过程:xt=atxt−1+1−atzt−1,在已知xt−1时,确定xt的高斯分布,其随机性由标准正太分布zt−1提供=at(at−1xt−2+1−at−1zt−2)+1−atzt−1因为需要通过马尔科夫链获取xt的分布=atat−1xt−2+(at1−at−1zt−2+1−atzt−1)因为需要通过马尔科夫链获取xt的分布=atat−1xt−2+(at1−at−1)2+(1−at)2z标准正太分布方差的性质=atat−1xt−2+1−atat−1zˉt−2zˉ为两个高斯分布的混合=aˉtx0+1−aˉtz,所以将上式写为q(xt∣x0)=N(xt;aˉtx0,(1−aˉt)I)上式的推导过程:\\ \tiny x_t= \sqrt{a_t}x_{t-1} + \sqrt{1-a_t}z_{t-1} \ ,在已知x_{t-1}时,确定x_t的高斯分布,其随机性由标准正太分布z_{t-1}提供\\ \quad = \sqrt{a_t}(\sqrt{a_{t-1}}x_{t-2} + \sqrt{1-a_{t-1}}z_{t-2}) + \sqrt{1-a_t}z_{t-1} \ \ \ 因为需要通过马尔科夫链获取x_t的分布 \\ \quad = \sqrt{a_t}\sqrt{a_{t-1}}x_{t-2} +(\sqrt{a_t} \sqrt{1-a_{t-1}}z_{t-2} + \sqrt{1-a_t}z_{t-1} )\ \ \ 因为需要通过马尔科夫链获取x_t的分布 \\ \quad = \sqrt{a_t}\sqrt{a_{t-1}}x_{t-2} +\sqrt {(\sqrt{a_t} \sqrt{1-a_{t-1}})^2 +(\sqrt{1-a_t} )^2 }z \ \ \ 标准正太分布方差的性质 \\ \quad =\sqrt{a_t a_{t-1}}x_{t-2} +\sqrt{1-a_ta_{t-1}}\bar z_{t-2} \ \ \qquad \qquad \quad \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \bar z为两个高斯分布的混合 \\ =\sqrt{\bar{a}_t}x_0+\sqrt{1-\bar{a}_t}z,\quad \quad 所以将上式写为q(x_t|x_0)=N(x_t;\sqrt{\bar a_t}x_0,(1-\bar a_t)I) xt=at

xt1+1at

zt1,xt1xtzt1
=at

(at1

xt2+
1at1

zt2)+
1at

zt1xt
=at

at1

xt2+
(at

1at1

zt2+
1at

zt1)xt
=at

at1

xt2+
(at

1at1

)2+(1at

)2

z
=atat1

xt2+
1atat1

zˉt2zˉ
=aˉt

x0+
1aˉt

zq(xtx0)=
N(xt;aˉt

x0,(1
aˉt)I)

unti-Diffusion

  • ⇒\Rightarrow:逆扩散过程(采样过程),无序到有序,熵减过程
    联合分布pθ(x0:T):=p(xT)Πt=1Tpθ(xt−1∣xt)其中pθ(xt−1∣xt):=N(xt−1;μθ(xt,t),Σθ(xt,t)),即假设pθ(xt−1∣xt)也为高斯分布,用网络拟合其中的系数μθ(xt,t),Σθ(xt,t)联合分布p_{\theta}(x_{0:T}):=p(x_T)\Pi_{t=1}^T \ p_{\theta}(x_{t-1}|x_t) \\ 其中p_{\theta}(x_{t-1}|x_t):= N{(x_{t-1};\mu_{\theta}(x_t,t) ,\Sigma_{\theta}(x_t,t))},\\ 即假设p_{\theta}(x_{t-1}|x_t)也为高斯分布,用网络拟合其中的系数\\ \mu_{\theta}(x_t,t) ,\Sigma_{\theta}(x_t,t) pθ(x0:T):=p(xT)Πt=1Tpθ(xt1xt)pθ(xt1xt):=N(xt1;μθ(xt,t),Σθ(xt,t))pθ(xt1xt),μθ(xt,t),Σθ(xt,t)

  • 有了正向过程的分布,可以窥探逆向过程的分布,比如确定q(xt−1∣xt,x0)q(x_{t-1}| x_t,x_0)q(xt1xt,x0)的标准差和均值

根据贝叶斯定理转换P(A∣B)和P(B∣A)q(xt−1∣xt,x0)=q(xt∣xt−1.x0)q(xt−1∣x0)q(xt∣x0)正比于∝exp(−12((xt−atxt−1)2βt+(xt−1−a‾t−1x0)21−aˉt−1−(xt−a‾tx0)21−aˉt))=exp(−12((atβt+11−aˉt−1)xt−12−(2atβtxt+2a‾t1−aˉtx0)xt−1+C(xt,x0)))然后由二次函数得到−2ab得到均值,和方差得到方差βˉ=1(atβt+11−aˉt−1)=1−aˉt−11−aˉt⋅βt均值uˉt(xt,x0)=(atβtxt+a‾t1−atˉ)/(αtβt+11−α‾t−1)=at(1−a‾t−1)1−aˉtxt+a‾t−1βt1−aˉtx0参数重整化技巧⇓xt==aˉtx0+1−aˉtzμˉt=1at(xt−βt1−a‾tzt)\tiny 根据贝叶斯定理 转换P(A|B) 和 P(B|A)\\ q(x_{t-1}| x_t,x_0) = q(x_t|x_{t-1}.x_0)\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)}\\ 正比于\propto exp(-\frac{1}{2}( \frac{(x_t-\sqrt{a_t}x_{t-1})^2}{\beta_t} + \frac{(x_{t-1}-\sqrt{\overline{a}_{t-1}}x_0)^2}{1-\bar{a}_{t-1}} -\frac{ (x_t - \sqrt{ \overline{a}_t}x_0)^2 }{1-\bar{a}_t} )) \\ = exp(-\frac{1}{2}( (\frac{a_t}{\beta_t }+\frac{1}{1-\bar a_{t-1}} )x_{t-1}^2 -(\frac{2\sqrt{a_t}}{\beta_t}x_t+\frac{2\sqrt{\overline a_t}}{1-\bar a_t}x_0)x_{t-1} +C(x_t,x_0) ))\\ 然后由二次函数得到-\frac{2a}{b}得到均值,和方差\\ 得到方差\bar \beta=\frac{1}{( \frac{a_t}{\beta_t }+\frac{1}{1-\bar a_{t-1}} )} = \frac{1-\bar a_{t-1}}{1-\bar a_t} \cdot \beta_t \\ 均值\bar{u}_t(x_t,x_0)=(\frac{\sqrt{a_t}}{\beta_t}x_t+\frac{\sqrt{\overline a_t}}{1-\bar{a_t}})/(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}}) \\ =\frac{\sqrt{a_t}(1-\overline{a}_{t-1})}{1-\bar{a}_{t}}x_t+\frac{\sqrt{\overline{a}_{t-1}\beta_t}}{1-\bar a_t}x_0 \\ 参数重整化技巧\Downarrow x_t==\sqrt{\bar{a}_t}x_0+\sqrt{1-\bar{a}_t}z \\ \bar \mu_t=\frac{1}{\sqrt{a_t}}(x_t - \frac{\beta_t}{\sqrt{1-\overline{a}_t}}z_t) P(AB)P(BA)q(xt1xt,x0)=q(xtxt1.x0)q(xtx0)q(xt1x0)exp(21(βt(xtat

xt1)2+1aˉt1(xt1at1

x0)2
1aˉt(xtat

x0)2
))
=exp(21((βtat+1aˉt11)xt12(βt2at

xt+
1aˉt2at

x0)xt1+
C(xt,x0)))b2aβˉ=(βtat+1aˉt11)1=1aˉt1aˉt1βtuˉt(xt,x0)=(βtat

xt+
1atˉat

)/(βtαt+
1αt11)=1aˉtat

(1at1)
xt+
1aˉtat1βt

x0
xt==aˉt

x0+
1aˉt

z
μˉt=at

1
(xt
1at

βt
zt)

  • 差值称为漂移量

loss函数

−logpθ(x0)≤−logpθ(x0)+DKL(q(x1:T∣x0)∣∣pθ(x1:T∣x0))DKL≥0=−logpθ(x0)+Ex1:T∼q(x1:T∣x0)[logq(x1:T∣x0)pθ(x1:T∣x0)]KL散度公式展开为对logqp用p均值加权P用来表示样本的真实分布,q用来表示模型所预测的分布=−logpθ(x0)+Ex1:T∼q(x1:T∣x0)[logq(x1:T∣x0)pθ(x0:T)/pθ(x0)]=−logpθ(x0)+Eq[logq(x1:T∣x0)pθ(x0:T)/pθ(x0)+logpθ(x0)]=−logpθ(x0)+Eq[logq(x1:T∣x0)pθ(x0:T)/pθ(x0)]+logpθ(x0)+logpθ(x0)不受变量q加权的影响,直接移出来=Eq[logq(x1:T∣x0)pθ(x0:T)/pθ(x0)]至此得到了log似然函数的上界-log p_{\theta}(x_0) \leq -logp_{\theta}(x_0) + D_{KL}(q(x_{1:T}|x_0)|| p_{\theta}(x_{1:T}|x_0)) \ {\tiny \color{blue}D_{KL} \geq 0} \\ \quad = -log p_{\theta}(x_0) +E_{x1:T \sim q(x1:T |x_0)}[log\frac{q(x_{1:T}|x_0)}{p_{\theta}(x_{1:T}|x_0)}] {\color{blue} \tiny KL散度公式展开为对log\frac{q}{p}用 p均值加权 P用来表示样本的真实分布,q用来表示模型所预测的分布} \\ \quad = -log p_{\theta}(x_0) +E_{x1:T \sim q(x1:T |x_0)}[log\frac{q(x_{1:T}|x_0)}{p_{\theta}(x_{0:T})/p_{\theta}(x_0)}] \\ \quad = -log p_{\theta}(x_0) +E_{q}[log\frac{q(x_{1:T}|x_0)}{p_{\theta}(x_{0:T})/p_{\theta}(x_0)}+logp_{\theta}(x_0)] \\ \quad = -log p_{\theta}(x_0) +E_{q}[log\frac{q(x_{1:T}|x_0)}{p_{\theta}(x_{0:T})/p_{\theta}(x_0)}] +logp_{\theta}(x_0) {\color{blue} \tiny +logp_{\theta}(x_0) 不受变量q加权的影响,直接移出来}\\ \quad =E_{q}[log\frac{q(x_{1:T}|x_0)}{p_{\theta}(x_{0:T})/p_{\theta}(x_0)}] {\color{blue} \tiny 至此得到了log似然函数的上界}\\ logpθ(x0)logpθ(x0)+DKL(q(x1:Tx0)pθ(x1:Tx0))DKL0=logpθ(x0)+Ex1:Tq(x1:Tx0)[logpθ(x1:Tx0)q(x1:Tx0)]KLlogpqpPq=logpθ(x0)+Ex1:Tq(x1:Tx0)[logpθ(x0:T)/pθ(x0)q(x1:Tx0)]=logpθ(x0)+Eq[logpθ(x0:T)/pθ(x0)q(x1:Tx0)+logpθ(x0)]=logpθ(x0)+Eq[logpθ(x0:T)/pθ(x0)q(x1:Tx0)]+logpθ(x0)+logpθ(x0)q=Eq[logpθ(x0:T)/pθ(x0)q(x1:Tx0)]log
然后将−logpθ(x0)写成交叉熵的形式L=Eq(x0)[−logpθ(x0)]≤Eq(x0:T)[logq(x1:T∣x0)pθ(x0:T)]将刚才计算的结果带入=Eq(x0:T)[logΠt=1Tq(xt∣xt−1)pθ(xT)Πt=1Tpθ(xt−1∣xt)]展开,上下类似,只不过一个时q扩散,一个是p逆扩散=Eq(x0:T)[−logpθ(xT)+∑t=1Tlogq(xt∣xt−1)pθ(xt−1∣xt)]=Eq(x0:T)[−logpθ(xT)+∑t=2Tlogq(xt∣xt−1)pθ(xt−1∣xt)+logq(xt∣x0)pθ(x0∣xt)]取出其中的一项q(xt∣xt−1)=q(xt∣xt−1,x0)⇓=q(xt−1∣xt,x0)q(xt∣x0)q(xt−1∣x0)=Eq(x0:T)[−logpθ(xT)+∑t=2Tlogq(xt−1∣xt,x0)q(xt∣x0)q(xt−1∣x0)pθ(xt−1∣xt)+logq(xt∣x0)pθ(x0∣xt)]=Eq(x0:T)[−logpθ(xT)+∑t=2Tlogq(xt−1∣xt,x0)pθ(xt−1∣xt)⋅q(xt∣x0)q(xt−1∣x0)+logq(xt∣x0)pθ(x0∣xt)]=Eq(x0:T)[−logpθ(xT)+∑t=2Tlogq(xt−1∣xt,x0)pθ(xt−1∣xt)+∑t=2Tlogq(xt∣x0)q(xt−1∣x0)+logq(xt∣x0)pθ(x0∣xt)]=Eq(x0:T)[−logpθ(xT)+∑t=2Tlogq(xt−1∣xt,x0)pθ(xt−1∣xt)+log(Πt=2Tq(xt∣x0)q(xt−1∣x0))+logq(xt∣x0)pθ(x0∣xt)]=Eq(x0:T)[−logpθ(xT)+∑t=2Tlogq(xt−1∣xt,x0)pθ(xt−1∣xt)+log(q(xT∣x0)q(x1∣x0))+logq(xt∣x0)pθ(x0∣xt)]=Eq(x0:T)[logq(xT∣x0)−logpθ(xT)+∑t=2Tlogq(xt−1∣xt,x0)pθ(xt−1∣xt)+log(−q(x1∣x0))]=Eq(x0:T)[logq(xT∣x0)−logpθ(xT)+∑t=2Tlogq(xt−1∣xt,x0)pθ(xt−1∣xt)+log(−q(x1∣x0))]=Eq[DKL(q(xT∣x0)∣∣pθ(xT))+∑t=2TDKL(q(xt−1∣xt,x0)∣∣pθ(xt−1∣xt))+log(−q(x1∣x0))]⇓blue:常量,redLt−1,black:Lt−1且t=1然后将-log p_{\theta}(x_0)写成交叉熵的形式 \\ L = E_{q(x_0)}[-log p_{\theta}(x_0)] \\ \leq E_{q(x_0:T)}[log\frac{q(x_{1:T}|x_0)}{p_{\theta}(x_{0:T})}] {\color{blue} \tiny 将刚才计算的结果带入} \\ = E_{q(x_0:T)}[log\frac{ \Pi_{t=1}^{T} q(x_t|x_{t-1}) }{ p_{\theta}(x_{T}) \Pi_{t=1}^{T} p_{\theta}(x_{t-1}|x_{t}) } ] {\color{blue} \tiny 展开,上下类似,只不过一个时q扩散,一个是p逆扩散}\\ = E_{ q(x_0:T)}[ -log p_{\theta}(x_T)+\sum_{t=1}^T log\frac{ q(x_t|x_{t-1}) }{ p_{\theta}(x_{t-1}|x_{t}) } ] {\color{blue} \tiny } \\ = E_{ q(x_0:T)}[ -log p_{\theta}(x_T)+\sum_{t=2}^T log\frac{ q(x_t|x_{t-1}) }{ p_{\theta}(x_{t-1}|x_{t}) } {\color{blue} \tiny }+ log\frac{ q(x_t|x_{0}) }{ p_{\theta}(x_{0}|x_{t}) } ] {\color{blue} \tiny 取出其中的一项 } \\ {\tiny q(x_t|x_{t-1})= q(x_t|x_{t-1},x_0) \Downarrow = \frac{q(x_{t-1}|x_t,x_0)q(x_t|x_0)}{ q(x_{t-1}|x_0)} } \\ = E_{ q(x_0:T)}[ -log p_{\theta}(x_T)+\sum_{t=2}^T log\frac{ \frac{q(x_{t-1}|x_t,x_0)q(x_t|x_0)}{ q(x_{t-1}|x_0)} }{ p_{\theta}(x_{t-1}|x_{t}) } {\color{blue} \tiny }+ log\frac{ q(x_t|x_{0}) }{ p_{\theta}(x_{0}|x_{t}) } ] {\color{blue} \tiny }\\ = E_{ q(x_0:T)}[ -log p_{\theta}(x_T)+\sum_{t=2}^T log \frac{q(x_{t-1}|x_t,x_0)}{p_{\theta}(x_{t-1}|x_{t}) }\cdot \frac{q(x_t|x_0)}{ q(x_{t-1}|x_0)} {\color{blue} \tiny }+ log\frac{ q(x_t|x_{0}) }{ p_{\theta}(x_{0}|x_{t}) } ] {\color{blue} \tiny }\\ = E_{ q(x_0:T)}[ -log p_{\theta}(x_T)+\sum_{t=2}^T log \frac{q(x_{t-1}|x_t,x_0)}{p_{\theta}(x_{t-1}|x_{t}) }+\sum_{t=2}^T log\frac{q(x_t|x_0)}{ q(x_{t-1}|x_0)} {\color{blue} \tiny }+ log\frac{ q(x_t|x_{0}) }{ p_{\theta}(x_{0}|x_{t}) } ] {\color{blue} \tiny }\\ = E_{ q(x_0:T)}[ -log p_{\theta}(x_T)+\sum_{t=2}^T log \frac{q(x_{t-1}|x_t,x_0)}{p_{\theta}(x_{t-1}|x_{t}) }+log(\Pi_{t=2}^T \frac{q(x_t|x_0)}{ q(x_{t-1}|x_0)} ) {\color{blue} \tiny }+ log\frac{ q(x_t|x_{0}) }{ p_{\theta}(x_{0}|x_{t}) } ] {\color{blue} \tiny }\\ = E_{ q(x_0:T)}[ -log p_{\theta}(x_T)+\sum_{t=2}^T log \frac{q(x_{t-1}|x_t,x_0)}{p_{\theta}(x_{t-1}|x_{t}) }+log( \frac{q(x_T|x_0)}{ q(x_{1}|x_0)} ) {\color{blue} \tiny }+ log\frac{ q(x_t|x_{0}) }{ p_{\theta}(x_{0}|x_{t}) } ] {\color{blue} \tiny }\\ = E_{ q(x_0:T)}[ logq(x_T|x_0)-log p_{\theta}(x_T)+\sum_{t=2}^T log \frac{q(x_{t-1}|x_t,x_0)}{p_{\theta}(x_{t-1}|x_{t}) }+log( -{ q(x_{1}|x_0)} ) {\color{blue} \tiny } ] {\color{blue} \tiny }\\ = E_{ q(x_0:T)}[ {\color{blue}logq(x_T|x_0)-log p_{\theta}(x_T)}+ {\color{red}\sum_{t=2}^T log \frac{q(x_{t-1}|x_t,x_0)}{p_{\theta}(x_{t-1}|x_{t}) } }+log( -{ q(x_{1}|x_0)} ) {\color{blue} \tiny } ] {\color{blue} \tiny }\\ = E_{ q}[ {\color{blue}DKL(q(x_T|x_0)||p_{\theta}(x_T))}+ {\color{red}\sum_{t=2}^T  DKL( {q(x_{t-1}|x_t,x_0)} || {p_{\theta}(x_{t-1}|x_{t}) } )}+log( -{ q(x_{1}|x_0)} ) {\color{blue} \tiny } ] {\color{blue} \tiny }\\ \\ \Downarrow \\ blue :\ 常量,red \ L_{t-1}, \ black :L_{t-1}且t=1 logpθ(x0)L=Eq(x0)[logpθ(x0)]Eq(x0:T)[logpθ(x0:T)q(x1:Tx0)]=Eq(x0:T)[logpθ(xT)Πt=1Tpθ(xt1xt)Πt=1Tq(xtxt1)]q,p=Eq(x0:T)[logpθ(xT)+t=1Tlogpθ(xt1xt)q(xtxt1)]=Eq(x0:T)[logpθ(xT)+t=2Tlogpθ(xt1xt)q(xtxt1)+logpθ(x0xt)q(xtx0)]q(xtxt1)=q(xtxt1,x0)=q(xt1x0)q(xt1xt,x0)q(xtx0)=Eq(x0:T)[logpθ(xT)+t=2Tlogpθ(xt1xt)q(xt1x0)q(xt1xt,x0)q(xtx0)+logpθ(x0xt)q(xtx0)]=Eq(x0:T)[logpθ(xT)+t=2Tlogpθ(xt1xt)q(xt1xt,x0)q(xt1x0)q(xtx0)+logpθ(x0xt)q(xtx0)]=Eq(x0:T)[logpθ(xT)+t=2Tlogpθ(xt1xt)q(xt1xt,x0)+t=2Tlogq(xt1x0)q(xtx0)+logpθ(x0xt)q(xtx0)]=Eq(x0:T)[logpθ(xT)+t=2Tlogpθ(xt1xt)q(xt1xt,x0)+log(Πt=2Tq(xt1x0)q(xtx0))+logpθ(x0xt)q(xtx0)]=Eq(x0:T)[logpθ(xT)+t=2Tlogpθ(xt1xt)q(xt1xt,x0)+log(q(x1x0)q(xTx0))+logpθ(x0xt)q(xtx0)]=Eq(x0:T)[logq(xTx0)logpθ(xT)+t=2Tlogpθ(xt1xt)q(xt1xt,x0)+log(q(x1x0))]=Eq(x0:T)[logq(xTx0)logpθ(xT)+t=2Tlogpθ(xt1xt)q(xt1xt,x0)+log(q(x1x0))]=Eq[DKLq(xTx0)pθ(xT)+t=2T DKLq(xt1xt,x0) pθ(xt1xt)+log(q(x1x0))]blue:redLt1,black:Lt1t=1
论文假设pθ(xt−1∣xt)的方差为与β相关的常数,可训练参数仅有均值,主要关注红色部分论文假设p_{\theta}(x_{t-1}|x_{t})的方差为与\beta相关的常数,可训练参数仅有均值,主要关注红色部分pθ(xt1xt)β,
⇓KL(P,Q)=logσ2σ1+σ2+(μ1−μ2)22σ22−12(其中P.Q为一维高斯分布)Lt−1=Eq[(μ1−μ2)22σt2]Lt−1=Eq[(μt(xt,xo)−μθ(xt,t))22σt2]+CLt−1=Eq[(μt(xt,xo)−μθ(xt,t))22σt2]+C其中uˉt逆行过程的均值,之前推导过,\Downarrow KL(P,Q)=log\frac{\sigma_2}{\sigma_1}+\frac{\sigma^2+(\mu_1-\mu_2)^2}{2\sigma_2^2} -\frac12 { \tiny(其中P.Q为一维高斯分布)}\\ L_{t-1}=E_q[ \frac{(\mu_1-\mu_2)^2}{2\sigma_t^2} ]\\ L_{t-1}=E_q[ \frac{(\mu_t(x_t,x_o)-\mu_{\theta}(x_t,t))^2}{2\sigma_t^2} ]+C\\ L_{t-1}=E_q[ \frac{(\mu_t(x_t,x_o)-\mu_{\theta}(x_t,t))^2}{2\sigma_t^2} ]+C\\ 其中\bar u_t逆行过程的均值,之前推导过, KL(P,Q)=logσ1σ2+2σ22σ2+(μ1μ2)221(P.Q)Lt1=Eq[2σt2(μ1μ2)2]Lt1=Eq[2σt2(μt(xt,xo)μθ(xt,t))2]+CLt1=Eq[2σt2(μt(xt,xo)μθ(xt,t))2]+Cuˉt,

L(θ):=Et,x0,ε[∣∣ε−εθ(a‾t,+1−a‾tε,t))∣∣2]L(θ):=Et,x0,ε[∣∣ε−modelθ(a‾t,ε,t))∣∣2]L(\theta):=E_{t,x_0,\varepsilon} [|| \varepsilon -\varepsilon_{\theta}(\sqrt{\overline a_t},+ \sqrt{1-\overline a_t }\varepsilon,t))||^2] \\ L(\theta):=E_{t,x_0,\varepsilon} [|| \varepsilon -model_{\theta}( \overline a_t,\varepsilon,t))||^2] L(θ):=Et,x0,ε[εεθ(at

,+1at

ε,t))2]L(θ):=Et,x0,ε[εmodelθ(at,ε,t))2]

代码

import  matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_s_curve
import torch# TODO 实验数据
s_curve , _  = make_s_curve(10**4 , noise = 0.1)
s_curve = s_curve[:,[0,2] ]/10.0print("shape of moons :",np.shape(s_curve))data = s_curve.Tfig,ax = plt.subplots()
ax.scatter(*data ,color='red',edgecolor='white')
ax.axis('off')
plt.show()
dataset = torch.Tensor(s_curve).float() # shape of moons : (10000, 2)# TODO 确定超参数的值
num_steps = 100 # 可以由beta alpha 分布 均值 标准差 进行估算# 学习的超参数 动态的在(0,1)之间逐渐增大
betas = torch.linspace(-6,6,num_steps)
betas = torch.sigmoid(betas)* (0.5e-2 - 1e-5) + 1e-5# 计算 alpha , alpha_prod , alpha_prod_previous , alpha_bar_sqrt 等变量的值
alphas = 1 - betas
alphas_prod = torch.cumprod( alphas ,dim=0 ) # 累积连乘  https://pytorch.org/docs/stable/generated/torch.cumprod.html
alphas_prod_p = torch.cat([torch.tensor([1]).float() ,alphas_prod[:-1]],0) # p means previous
alphas_bar_sqrt = torch.sqrt(alphas_prod)
one_minus_alphas_bar_log = torch.log(1-alphas_prod)
one_minus_alphas_bar_sqrt = torch.sqrt(1-alphas_prod)assert  alphas_prod.shape == alphas_prod.shape == alphas_prod_p.shape \== alphas_bar_sqrt.shape == one_minus_alphas_bar_log.shape \== one_minus_alphas_bar_sqrt.shape
print("all the same shape:",betas.shape)  ## TODO 确定扩散过程中任意时刻的采样值
def q_x(x_0 ,t):noise = torch.randn_like(x_0) # noise 是从正太分布中生成的随机噪声alphas_t = alphas_bar_sqrt[t] ## 均值 \sqrt{\bar \alpha_t}alphas_l_m_t = one_minus_alphas_bar_sqrt[t] ## 标准差  \sqrt{ 1 - \bar \alpha_t}# alphas_t = extract(alphas_bar_sqrt , t, x_0) # 得到sqrt(alphas_bar[t]) ,x_0的作用是传入shape# alphas_l_m_t = extract(one_minus_alphas_bar_sqrt , t, x_0) # 得到sqrt(1-alphas_bart[t])return (alphas_t * x_0 + alphas_l_m_t * noise)# TODO 演示原始数据分布加噪100步后的效果
num_shows = 20
fig , axs = plt.subplots(2,10,figsize=(28,3))
plt.rc('text',color='blue')
# 共有10000个点,每个点包含两个坐标
# 生成100步以内每隔5步加噪声后的图像
for i in range(num_shows):j = i // 10k = i % 10t = i*num_steps//num_shows # t=i*5q_i = q_x(dataset ,torch.tensor( [t] )) # 使用刚才定义的扩散函数,生成t时刻的采样数据  x_0为datasetaxs[j,k].scatter(q_i[:,0],q_i[:,1],color='red',edgecolor='white')axs[j,k].set_axis_off()axs[j,k].set_title('$q(\mathbf{x}_{'+str(i*num_steps//num_shows)+'})$')
plt.show()# TODO 编写拟合逆扩散过程 高斯分布 的模型
# \varepsilon_\theta(x_0,t)
import torch
import torch.nn as nn
class MLPDiffusion(nn.Module):def __init__(self,n_steps,num_units=128):super(MLPDiffusion,self).__init__()self.linears = nn.ModuleList([nn.Linear(2,num_units),nn.ReLU(),nn.Linear(num_units,num_units),nn.ReLU(),nn.Linear(num_units, num_units),nn.ReLU(),nn.Linear(num_units, 2),])self.step_embeddings = nn.ModuleList([nn.Embedding(n_steps,num_units),nn.Embedding(n_steps, num_units),nn.Embedding(n_steps, num_units)])def forward(self,x,t):for idx,embedding_layer in enumerate(self.step_embeddings):t_embedding = embedding_layer(t)x = self.linears[2*idx](x)x += t_embeddingx = self.linears[2*idx +1](x)x = self.linears[-1](x)return x# TODO loss 使用最简单的 loss
def diffusion_loss_fn(model,x_0,alphas_bar_sqrt,one_minus_alphas_bar_sqrt,n_steps):# n_steps 用于随机生成t'''对任意时刻t进行采样计算loss'''batch_size = x_0.shape[0]# 随机采样一个时刻t,为了体检训练效率,需确保t不重复# weights = torch.ones(n_steps).expand(batch_size,-1)# t = torch.multinomial(weights,num_samples=1,replacement=False) # [barch_size, 1]t = torch.randint(0,n_steps,size=(batch_size//2,)) # 先生成一半t = torch.cat([t,n_steps-1-t],dim=0) # 【batchsize,1】t = t.unsqueeze(-1)# batchsieze# print(t.shape)# x0的系数a = alphas_bar_sqrt[t]# 生成的随机噪音epse = torch.randn_like(x_0)# eps的系数aml = one_minus_alphas_bar_sqrt[t]# 构造模型的输入x = x_0* a + e *aml# 送入模型,得到t时刻的随机噪声预测值output = model(x,t.squeeze(-1))# 与真实噪声一起计算误差,求平均值return (e-output).square().mean()# TODO 编写逆扩散采样函数(inference过程)
def p_sample_loop(model ,shape ,n_steps,betas ,one_minus_alphas_bar_sqrt):'''从x[T]恢复x[T-1],x[T-2],……,x[0]'''cur_x = torch.randn(shape)x_seq = [cur_x]for i in reversed(range(n_steps)):cur_x = p_sample(model,cur_x, i ,betas,one_minus_alphas_bar_sqrt)x_seq.append(cur_x)return x_seqdef p_sample(model,x,t,betas,one_minus_alphas_bar_sqrt):'''从x[T]采样时刻t的重构值'''t = torch.tensor(t)coeff = betas[t] / one_minus_alphas_bar_sqrt[t]eps_theta = model(x,t)mean = (1/(1-betas[t].sqrt()) * (x-(coeff * eps_theta)))z = torch.randn_like(x)sigma_t = betas[t].sqrt()sample = mean + sigma_t * zreturn (sample)# TODO 模型的训练
seed = 1234
class EMA():'''构建一个参数平滑器'''def __init__(self,mu = 0.01):self.mu =muself.shadow = {}def register(self,name,val):self.shadow[name] = val.clone()def __call__(self, name, x): # call函数?assert name in self.shadownew_average = self.mu * x +(1.0 -self.mu) * self.shadow[name]self.shadow[name] = new_average.clone()return new_averageprint('Training model ……')
'''
'''
batch_size = 128
dataloader = torch.utils.data.DataLoader(dataset,batch_size=batch_size,shuffle = True)
num_epoch = 4000
plt.rc('text',color='blue')model = MLPDiffusion(num_steps) # 输出维度是2 输入是x 和 step
optimizer = torch.optim.Adam(model.parameters(),lr = 1e-3)for t in range(num_epoch):for idx,batch_x in enumerate(dataloader):loss = diffusion_loss_fn(model,batch_x,alphas_bar_sqrt,one_minus_alphas_bar_sqrt,num_steps)optimizer.zero_grad()loss.backward()torch.nn.utils.clip_grad_norm(model.parameters(),1.) #optimizer.step()# for name ,param in model.named_parameters():#   if params.requires_grad:#       param.data = ems(name,param.data)# print lossif (t% 100 == 0):print(loss)x_seq = p_sample_loop(model,dataset.shape,num_steps,betas,one_minus_alphas_bar_sqrt)# 共有100个元素fig ,axs = plt.subplots(1,10,figsize=(28,3))for i in range(1,11):cur_x = x_seq[i*10].detach()axs[i-1].scatter(cur_x[:,0],cur_x[:,1],color='red',edgecolor='white');axs[i-1].set_axis_off()axs[i-1].set_title('$q(\mathbf{x}_{'+str(i*10)+'})$')

参考与更多

2020 Denoising Diffusion Probabilistic Models
2015 Deep Unsupervised Learning using Nonequilibrium Thermodynamics
视频解读
DDPM的代码
https://github.com/openai/glide-text2im

基于扩散概率模型 (Diffusion Probabilistic Model ) 的音频生成模型
添加链接描述
https://www.jianshu.com/p/8b120d1881c1
(另辟蹊径—Denoising Diffusion Probabilistic 一种从噪音中剥离出图像/音频的模型)


paper Diffusion Models Beat GANs on Image Synthesis

disco-diffusion

disco difussion repo:https://github.com/alembics/disco-diffusion
openai guided diffusion https://github.com/openai/guided-diffusion

在colab上运行的视频
github- docker - disco-diffusion

docker-本地运行版本
https://github.com/MohamadZeina/Disco_Diffusion_Local
实现中先使用了clip进行了连接文本和图像

https://github.com/afiaka87/clip-guided-diffusion

Diffusion扩散模型简述 + 代码demo相关推荐

  1. Diffusion扩散模型学习1——Pytorch搭建DDPM实现图片生成

    Diffusion扩散模型学习1--Pytorch搭建DDPM利用深度卷积神经网络实现图片生成 学习前言 源码下载地址 网络构建 一.什么是Diffusion 1.加噪过程 2.去噪过程 二.DDPM ...

  2. Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例

    Diffusion扩散模型学习2--Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例 学习前言 源码下载地址 网络构建 一.什么是Stable Diffusion ...

  3. Diffusion 扩散模型(DDPM)详解及torch复现

    文章目录 torch复现 第1步:正向过程=噪声调度器 Step 2: 反向传播 = U-Net Step 3: 损失函数 采样 Training 我公众号文章目录综述: https://wanggu ...

  4. DDPM(Denoising Diffusion Probabilistic Models)扩散模型简述

    引言 扩散模型最早是在2015年的Deep Unsupervised Learning using Nonequilibrium Thermodynamics文章中提出的,但当时扩散模型并不work, ...

  5. Stable diffusion扩散模型相关

    时隔两年半(2年4个月),我又回来研究生成技术了.以前学习研究GAN没结果,不管是技术上,还是应用产品上,结果就放弃了,现在基于diffusion的技术又把生成技术带上了一个新的高度.现在自己又来研究 ...

  6. 1、Denoising Diffusion Probabilistic Models(扩散模型)

    简介 主页:https://hojonathanho.github.io/diffusion/ 扩散模型 (diffusion models)是深度生成模型中新的SOTA. 扩散模型在图片生成任务中超 ...

  7. 文本生成图像简述4——扩散模型、自回归模型、生成对抗网络的对比调研

    基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功. 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据 ...

  8. AI绘画能力的起源:通俗理解VAE、扩散模型DDPM、DETR、ViT/Swin transformer

    前言 2018年我写过一篇博客,叫:<一文读懂目标检测:R-CNN.Fast R-CNN.Faster R-CNN.YOLO.SSD>,该文相当于梳理了2019年之前CV领域的典型视觉模型 ...

  9. AI绘画爆火背后:扩散模型原理及实现

    Datawhale干货 技术:Diffusion扩散模型 最近爆火的AI绘图,相信大家并不陌生了. 从AI绘图软件生成的作品打败一众人类艺术家,斩获数字艺术类冠军,到如今DALL.E.Imagen.n ...

  10. 【diffusion】扩散模型详解!理论+代码

    0.项目视频详解 视频教程见B站https://www.bilibili.com/video/BV1e8411a7mz 1.diffusion模型理论(推导出损失函数) 1.1.背景 随着人工智能在图 ...

最新文章

  1. 无乱码的中文Joomla 1.0.15
  2. hdu-Frosh Week(树状数组)
  3. 深入学习SAP UI5框架代码系列之八:谈谈 SAP UI5 的视图控件 ID,以及 SAP UI5 视图和 Angular 视图的异同
  4. live555的安装 RTSP点播消息流程实例(客户端:VLC, RTSP服务器:LIVE555 Media Server)
  5. python定时任务,隔月执行,隔定时执行
  6. [coursera] [design] Hangman
  7. sa结构组网方式_卢伟冰为大家科普一番:为啥在NSA与SA组网方式惹争议?
  8. 5G是什么?5G能做什么?5G在未来将带来什么?
  9. EPLAN P8.2.7 学习版安装教程(适用于 Win10 64位)
  10. ios12完美深色模式插件_苹果针对老机型推送iOS12.4.6iOS14代码泄漏iPhone12:无刘海真全面屏...
  11. java实现使用POI对word文档的页眉页脚的编辑
  12. JS:原生JS实现message消息提示框
  13. 智慧数字经营要怎么代理加盟? 本文详解。
  14. T-SQL - 习题02_将数据表year|month|amount查询成year|m1|m2|m3|m4的样式
  15. DELL H61刷BIOS开启AHCI
  16. 5-06特征变换代码
  17. TI DLP4500EVM轻度使用——Pattern创建、烧录、投影
  18. 江西省中小学生学籍管理-小学新生注册(4)
  19. cocos creator开发的精灵大师小游戏源码分享,支持h5安卓微信小游戏等多平台
  20. python时间序列分析模块宝典_资料分析模块宝典

热门文章

  1. 微信小程序图标 icon组件
  2. PDMS二次开发应用案例——PipelineTool
  3. 萤石云平台接入_前端接入萤石云视频
  4. 【数学和算法】矩阵运算的相关公式
  5. android锁屏自动清理,安卓手机如何把锁屏自动清理关掉急
  6. html5游戏网页代码大全,HTML网页代码大全
  7. sm4 的s盒_国密SM4算法
  8. Layui中文离线版文档
  9. 《最优化理论》:运输问题(一)求最小运费【西北角法、最小元素法、伏格尔法】
  10. npm ERR! code ELIFECYCLE npm ERR! errno 1 npm ERR! taoism@1.0.0 dev: `webpack-dev-server --inline --