softmax与交叉熵损失

softmax基本形式

softmax是一个将实数域上取值的N维向量转化为[0,1]范围内的函数，常用用于分类问题中，接在神经网络最后一层，将输出值映射到概率区间上，其基本形式如下所示
pi=eai∑k=1Neak（1）p_{i}=\frac{e^{a_{i}}}{\sum_{k=1}^{N} e^{a_{k}}} \qquad（1） pi=∑k=1Neakeai（1）

基本形式优化

从（1）式可以看到，计算时有e的指数幂运算，如果aka_{k}ak过大，会造成溢出，优化方式如下：
pi=eai∑k=1Neak=CeaiC∑k=1Neak=eai+log⁡(C)∑k=1Neak+log⁡(C)\begin{aligned} p_{i} &=\frac{e^{a_{i}}}{\sum_{k=1}^{N} e^{a_{k}}} \\ &=\frac{C e^{a_{i}}}{C \sum_{k=1}^{N} e^{a_{k}}} \\ &=\frac{e^{a_{i}+\log (C)}}{\sum_{k=1}^{N} e^{a_{k}+\log (C)}} \end{aligned}pi=∑k=1Neakeai=C∑k=1NeakCeai=∑k=1Neak+log(C)eai+log(C)对pip_ipi上下同乘上常数C,并将C弄到指数上，将log(c)log(c)log(c)取
log(C)=−max(a)log(C)=−max(a)log(C)=−max(a)即可在不改变值分布的情况下起到放缩作用

softmax求导

假设softmax的输入为向量A[a1,a2,..aN]A[a_1,a_2,..a_N]A[a1,a2,..aN]经过softmax函数处理后输出为P[p1,p2,...pN]P[p_1,p_2,...p_N]P[p1,p2,...pN]
∂pi∂aj=∂eai∑k=1Neak∂aj\frac{\partial p_{i}}{\partial a_{j}}=\frac{\partial \frac{e^{a_{i}}}{\sum_{k=1}^{N} e^{a_{k}}}}{\partial a_{j}}∂aj∂pi=∂aj∂∑k=1Neakeai其中aja_jaj是待求导的变量，pip_ipi是softmax的输出值中的某一个，对于N维输出，每个维度对变量aja_{j}aj都能求一个导数（这些导数取平均的结果用于梯度下降，下一节会说到）。
∂pi∂aj=∂eai∂eaj∂∑k=1Neak∂eaj(2)\frac{\partial p_{i}}{\partial a_{j}}=\frac{ \frac{\partial e^{a_{i}}}{\partial e^{a_{j}}} } { \frac{ \partial \sum_{k=1}^{N} e^{a_{k}}}{\partial e^{a_{j}}} } \qquad(2) ∂aj∂pi=∂eaj∂∑k=1Neak∂eaj∂eai(2)
根据分式求导规则，如果f(x)=g(x)h(x)f(x)=\frac{g(x)}{h(x)}f(x)=h(x)g(x)，那么：
f′(x)=g′(x)h(x)−h′(x)g(x)h(x)2f^{\prime}(x)=\frac{g^{\prime}(x) h(x)-h^{\prime}(x) g(x)}{h(x)^{2}}f′(x)=h(x)2g′(x)h(x)−h′(x)g(x)这里g(x)=eaig(x)=e^{a_{i}}g(x)=eai， h(x)=∑k=1Neakh(x)=\sum_{k=1}^{N} e^{a_{k}}h(x)=∑k=1Neak。再次注意这里对于每个aja_{j}aj都有对应的N个pip_{i}pi需要对其求导。

这里要分两种情况，i是否等于j
（1）i=ji=ji=j时：
∂pi∂aj=eai∑k=1Neak−eajeai(∑k=1Neak)2=eai(∑k=1Neak−eaj)(∑k=1Neak)2=eaj∑k=1Neak×(∑k=1Neak−eaj)∑k=1Neak=pi(1−pj)(3)\begin{aligned} \frac{\partial p_{i}}{\partial a_{j}}&=\frac{e^{a_{i}} \sum_{k=1}^{N} e^{a_{k}}-e^{a_{j}} e^{a_{i}}}{\left(\sum_{k=1}^{N} e^{a_{k}}\right)^{2}} \\ &=\frac{e^{a_{i}}\left(\sum_{k=1}^{N} e^{a_{k}}-e^{a_{j}}\right)}{\left(\sum_{k=1}^{N} e^{a_{k}}\right)^{2}} \\ &=\frac{e^{a_{j}}}{\sum_{k=1}^{N} e^{a_{k}}} \times \frac{\left(\sum_{k=1}^{N} e^{a_{k}}-e^{a_{j}}\right)}{\sum_{k=1}^{N} e^{a_{k}}} \\ &=p_{i}\left(1-p_{j}\right) \qquad \end{aligned} \qquad (3)∂aj∂pi=(∑k=1Neak)2eai∑k=1Neak−eajeai=(∑k=1Neak)2eai(∑k=1Neak−eaj)=∑k=1Neakeaj×∑k=1Neak(∑k=1Neak−eaj)=pi(1−pj)(3)
（2）i≠ji\neq ji=j时：
∂pi∂aj=0−eajeai(∑k=1Neak)2=−eaj∑k=1Neak×eai∑k=1Neak=−pj⋅pi(4)\begin{aligned} \frac{\partial p_{i}}{\partial a_{j}}&=\frac{0-e^{a_{j}} e^{a_{i}}}{\left(\sum_{k=1}^{N} e^{a_{k}}\right)^{2}} \\ &=\frac{-e^{a_{j}}}{\sum_{k=1}^{N} e^{a_{k}}} \times \frac{e^{a_{i}}}{\sum_{k=1}^{N} e^{a_{k}}} \\ &=-p_{j} \cdot p_{i} \end{aligned}\qquad(4)∂aj∂pi=(∑k=1Neak)20−eajeai=∑k=1Neak−eaj×∑k=1Neakeai=−pj⋅pi(4)
所以综上：
∂pi∂aj={pi(1−pj)if i=j−pj⋅piif i≠j\frac{\partial p_{i}}{\partial a_{j}}=\left\{\begin{array}{lll} p_{i}\left(1-p_{j}\right) & \text { if } & i=j \\ -p_{j \cdot p_{i}} & \text { if } & i \neq j \end{array}\right.∂aj∂pi={pi(1−pj)−pj⋅pi if if i=ji=j

交叉熵作为损失函数时

在分类问题（二分类或者多分类）中，常常使用交叉熵作为损失函数，交叉熵基本形式如下
H(y,p)=−∑ylog⁡(p)H(y, p)=-\sum y \log \left(p \right)H(y,p)=−∑ylog(p)yyy表示真实类别，p表示预测类别概率。
假设这里输入是aia_{i}ai输出是pip_{i}pi（在实际中aia_iai一般为神经网络最后一层的输出，由真实输入xxx到aia_iai这里并不是我们要考虑的，其链式求导不影响我们的推导），损失函数为L，求损失函数对输入的偏导
L=−∑ylog⁡(p)∂L∂ai=−∑kyk∂log⁡(pk)∂ai=−∑kyk∂log⁡(pk)∂pk×∂pk∂ai=−∑yk1pk×∂pk∂ai(5)\begin{aligned} L &=-\sum y \log \left(p\right) \\ \frac{\partial L}{\partial a_{i}} &=-\sum_{k} y_{k} \frac{\partial \log \left(p_{k}\right)}{\partial a_{i}} \\ &=-\sum_{k} y_{k} \frac{\partial \log \left(p_{k}\right)}{\partial p_{k}} \times \frac{\partial p_{k}}{\partial a_{i}} \\ &=-\sum y_{k} \frac{1}{p_{k}} \times \frac{\partial p_{k}}{\partial a_{i}} \end{aligned} \qquad (5)L∂ai∂L=−∑ylog(p)=−k∑yk∂ai∂log(pk)=−k∑yk∂pk∂log(pk)×∂ai∂pk=−∑ykpk1×∂ai∂pk(5) k=1,2,3..i..N,aik=1,2,3..i..N, a_ik=1,2,3..i..N,ai是特定位置的参数

可以将式子(5)拆分成k=ik=ik=i和k≠ik\neq ik=i两部分：
∂L∂oi=−yi(1−pi)−∑k≠iyk1pk(−pk⋅pi)=−yi(1−pi)+∑k≠iyk⋅pi=−yi+yipi+∑k≠iyk⋅pi=pi(yi+∑k≠iyk)−yi=pi∑kyk−yi\begin{aligned} \frac{\partial L}{\partial o_{i}} &=-y_{i}\left(1-p_{i}\right)-\sum_{k \neq i} y_{k} \frac{1}{p_{k}}\left(-p_{k} \cdot p_{i}\right) \\ &=-y_{i}\left(1-p_{i}\right)+\sum_{k \neq i} y_{k} \cdot p_{i} \\ &=-y_{i}+y_{i} p_{i}+\sum_{k \neq i} y_{k} \cdot p_{i} \\ &=p_{i}\left(y_{i}+\sum_{k \neq i} y_{k}\right)-y_{i} \\ &=p_{i}\sum_{k} y_{k}-y_{i} \end{aligned}∂oi∂L=−yi(1−pi)−k=i∑ykpk1(−pk⋅pi)=−yi(1−pi)+k=i∑yk⋅pi=−yi+yipi+k=i∑yk⋅pi=pi⎝⎛yi+k=i∑yk⎠⎞−yi=pik∑yk−yi因为∑kyk=1\sum_{k}y_{k} =1∑kyk=1，所以
∂L∂ai=pi−yi\frac{\partial L}{\partial a_{i}}=p_{i}-y_{i}∂ai∂L=pi−yi