Sigmoid Function

sigmoid(z)=11−e−zsigmoid⁡(z)=11−e−z\operatorname {sigmoid} (z) = \dfrac {1} {1 - e ^{-z}}

Softmax Function

softmax(zi;Z)=ezi∑i=1nezi,1≤i≤nsoftmax⁡(zi;Z)=ezi∑i=1nezi,1≤i≤n\operatorname {softmax} (z_i; Z) = \dfrac {e ^{z _{i}}} { \sum \limits_{i = 1} ^{n} e ^{z_i} } ,1 \le i \le n
即 softmax(Z)=eZ∥eZ∥1softmax⁡(Z)=eZ‖eZ‖1\operatorname {softmax} (Z) = \dfrac {e ^{Z}} { \lVert e ^{Z} \rVert _{1} }

Relationship

n=2n=2n = 2 时， sigmoidsigmoid\operatorname {sigmoid} 与 softmaxsoftmax\operatorname {softmax} 等价。这是因为：
softmax(z1;Z)=ez1∑i=12ezisoftmax⁡(z1;Z)=ez1∑i=12ezi\operatorname {softmax} (z _{1}; Z) = \dfrac {e ^{z _{1}}} { \sum \limits_{i = 1} ^{2} e ^{z _{i}} }
=ez1ez1+ez2=ez1ez1+ez2= \dfrac {e ^{z _{1}}} {e ^{z _{1}} + e ^{z _{2}} }
=11+e−(z1−z2)=11+e−(z1−z2)= \dfrac {1} {1 + e ^{- \left ( z _{1} - z _{2} \right ) }}
=sigmoid(z1−z2)=sigmoid⁡(z1−z2)= \operatorname {sigmoid} \left ( z _{1} - z _{2} \right )

Gradient to Z[L]Z[L]Z ^{[L]}

loss(Y^,Y)=−∑i=1nyilnyi^loss⁡(Y^,Y)=−∑i=1nyiln⁡yi^\operatorname {loss} \left ( \hat Y, Y \right ) = - \sum \limits_{i = 1} ^{n} y_{i} \ln \hat {y_{i}}
=−∑i=1nyiln⎛⎝⎜⎜⎜ezi∑k=1nezk⎞⎠⎟⎟⎟=−∑i=1nyiln⁡(ezi∑k=1nezk) = - \sum \limits_{i = 1} ^{n} y_{i} \ln \left ( \dfrac {e ^{z _{i}}} { \sum \limits_{k = 1} ^{n} e ^{z _{k}} } \right )
=−∑i=1nyizi+∑i=1nyiln(∑k=1nezk)=−∑i=1nyizi+∑i=1nyiln⁡(∑k=1nezk) = - \sum \limits_{i = 1} ^{n} y_{i} z _{i} + \sum \limits_{i = 1} ^{n} y_{i} \ln \left ( \sum \limits_{k = 1} ^{n} e ^{z _{k}} \right )
=−∑i=1nyizi+ln(∑k=1nezk)∑i=1nyi=−∑i=1nyizi+ln⁡(∑k=1nezk)∑i=1nyi = - \sum \limits_{i = 1} ^{n} y_{i} z _{i} + \ln \left ( \sum \limits_{k = 1} ^{n} e ^{z _{k}} \right ) \sum \limits_{i = 1} ^{n} y_{i}
=−∑i=1nyizi+ln(∑i=1nezi)=−∑i=1nyizi+ln⁡(∑i=1nezi)= - \sum \limits_{i = 1} ^{n} y_{i} z _{i} + \ln \left ( \sum \limits_{i = 1} ^{n} e ^{z _{i}} \right )
因此
∂∂ziloss(Y^,Y)=−yi+ezi∑i=1nezi∂∂ziloss⁡(Y^,Y)=−yi+ezi∑i=1nezi\dfrac {\partial}{\partial z _{i}} \operatorname {loss} \left ( \hat Y, Y \right ) = - y_{i} + \dfrac {e ^{z _{i}}} {\sum \limits_{i = 1} ^{n} e ^{z _{i}}}
=ezi∑i=1nezi−yi=ezi∑i=1nezi−yi= \dfrac {e ^{z _{i}}} {\sum \limits_{i = 1} ^{n} e ^{z _{i}}} - y_{i}
=softmax(zi;Z)−yi=softmax⁡(zi;Z)−yi= \operatorname {softmax} (z_i; Z) - y_{i}
则 ∂∂Zloss(Y^,Y)=softmax(Z)−Y∂∂Zloss⁡(Y^,Y)=softmax⁡(Z)−Y\dfrac {\partial}{\partial Z} \operatorname {loss} \left ( \hat Y, Y \right ) = \operatorname {softmax} (Z) - Y
=Y^−Y=Y^−Y= \hat Y - Y

Gradient to Z[l]Z[l]Z ^{[l]}

由于 softmax(Z[l])=A[l]softmax⁡(Z[l])=A[l]\operatorname {softmax} (Z ^{[l]}) = A ^{[l]}
则 ∂∂z[l]iloss(Y^,Y)=∑j=1n[l]∂∂a[l]jloss(Y^,Y)⋅∂∂z[l]ia[l]j∂∂zi[l]loss⁡(Y^,Y)=∑j=1n[l]∂∂aj[l]loss⁡(Y^,Y)⋅∂∂zi[l]aj[l]\dfrac {\partial}{\partial z _{i} ^{[l]} } \operatorname {loss} \left ( \hat Y, Y \right ) = \sum \limits_{j = 1} ^{n ^{[l]}} \dfrac {\partial}{\partial a _{j} ^{[l]} } \operatorname {loss} \left ( \hat Y, Y \right ) \cdot \dfrac {\partial}{\partial z _{i} ^{[l]} } a _{j} ^{[l]}
=∑j=1n[l]∂∂a[l]jloss(Y^,Y)⋅∂∂z[l]i⎛⎝⎜⎜⎜⎜ez[l]j∑k=1n[l]ez[l]k⎞⎠⎟⎟⎟⎟=∑j=1n[l]∂∂aj[l]loss⁡(Y^,Y)⋅∂∂zi[l](ezj[l]∑k=1n[l]ezk[l])= \sum \limits_{j = 1} ^{n ^{[l]}} \dfrac {\partial}{\partial a _{j} ^{[l]} } \operatorname {loss} \left ( \hat Y, Y \right ) \cdot \dfrac {\partial}{\partial z _{i} ^{[l]} } \left ( \dfrac {e ^{z _{j} ^{[l]} }} { \sum \limits_{k = 1} ^{n^{[l]}} e ^{z_{k} ^{[l]} } } \right )
=∑j=1n[l]∂∂a[l]jloss(Y^,Y)⋅⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪ez[l]j∑k=1n[l]ez[l]k−(ez[l]j)2(∑k=1n[l]ez[l]k)2,⎡⎣⎢⎢⎢⎢⎢⎢−ez[l]jez[l]i(∑k=1n[l]ez[l]k)2⎤⎦⎥⎥⎥⎥⎥⎥,i=jotherwise=∑j=1n[l]∂∂aj[l]loss⁡(Y^,Y)⋅{ezj[l]∑k=1n[l]ezk[l]−(ezj[l])2(∑k=1n[l]ezk[l])2,i=j[−ezj[l]ezi[l](∑k=1n[l]ezk[l])2],otherwise= \sum \limits_{j = 1} ^{n ^{[l]}} \dfrac {\partial}{\partial a _{j} ^{[l]} } \operatorname {loss} \left ( \hat Y, Y \right ) \cdot \begin{cases} \dfrac {e ^{z _{j} ^{[l]} } \sum \limits_{k = 1} ^{n^{[l]}} e ^{z_{k} ^{[l]} } - \left (e ^{z _{j} ^{[l]} } \right ) ^{2}} { \left ( \sum \limits_{k = 1} ^{n^{[l]}} e ^{z_{k} ^{[l]} } \right ) ^{2} }, & i = j \\ \left [ - \dfrac {e ^{z _{j} ^{[l]} } e ^{z _{i} ^{[l]} }} { {\left ( \sum \limits_{k = 1} ^{n^{[l]}} e ^{z_{k} ^{[l]} } \right )} ^2 } \right ] , & \text{otherwise} \end{cases}
=∑j=1n[l]∂∂a[l]jloss(Y^,Y)⋅softmax(z[l]j;Z[l])⋅{1−softmax(z[l]i;Z[l]),−softmax(z[l]i;Z[l]),i=jotherwise=∑j=1n[l]∂∂aj[l]loss⁡(Y^,Y)⋅softmax⁡(zj[l];Z[l])⋅{1−softmax⁡(zi[l];Z[l]),i=j−softmax⁡(zi[l];Z[l]),otherwise= \sum \limits_{j = 1} ^{n ^{[l]}} \dfrac {\partial}{\partial a _{j} ^{[l]} } \operatorname {loss} \left ( \hat Y, Y \right ) \cdot \operatorname {softmax} (z _{j} ^{[l]}; Z ^{[l]}) \cdot \begin{cases} 1 - \operatorname {softmax} (z _{i} ^{[l]}; Z ^{[l]}), & i = j \\ - \operatorname {softmax} (z _{i} ^{[l]}; Z ^{[l]}), & \text{otherwise} \end{cases}
因此
∂∂Z[l]loss(Y^,Y)=(I−softmax(Z[l])11×n[l])(∂∂A[l]loss(Y^,Y)∗softmax(Z[l]))∂∂Z[l]loss⁡(Y^,Y)=(I−softmax⁡(Z[l])11×n[l])(∂∂A[l]loss⁡(Y^,Y)∗softmax⁡(Z[l]))\dfrac {\partial}{\partial Z ^{[l]} } \operatorname {loss} \left ( \hat Y, Y \right ) = \left (I - \operatorname {softmax} (Z ^{[l]}) 1_{1 \times n ^{[l]}} \right ) \left ( \dfrac {\partial}{\partial A ^{[l]} } \operatorname {loss} \left ( \hat Y, Y \right ) * \operatorname {softmax} (Z ^{[l]}) \right )

Softmax Function相关推荐

sigmoid function vs softmax function
DIFFERENCE BETWEEN SOFTMAX FUNCTION AND SIGMOID FUNCTION 二者主要的区别见于, softmax 用于多分类,sigmoid 则主要用于二分类: ...
机器学习笔记（十）——Logistic Function AND Softmax Function
一.说明在逻辑回归和一些机器学习算法中, Logistic函数和Softmax函数是常用到的,今天就先讨论下这两个函数. 二.Logistic Function Logistic function一 ...
What is the Softmax Function?详解机器学习中的Softmax函数【小白菜可懂】
目录定义公式计算 Softmax vs Sigmoid Softmax vs Sigmoid 计算 Softmax vs Argmax Softmax vs Argmax 计算应用神经网络中 ...
激活函数之softmax介绍及C++实现
下溢(underflow):当接近零的数被四舍五入为零时发生下溢.许多函数在其参数为零而不是一个很小的正数时才会表现出质的不同.例如,我们通常要避免被零除或避免取零的对数. 上溢(overflow): ...
干货 | 浅谈 Softmax 函数
点击上方"视学算法",马上关注真爱,请设置"星标"或点个"在看" 来自 | 知乎作者 | LinT 链接丨https://zhuan ...
解决softmax后列和不为1的bug记录：问题原因为 s为1维的，来除torch.exp(x)（64x10）时候，维数不对应,需要将s也要转换为2维的即维数为（64x1）,才可以广播按行对应相除
def softmax(x): ## TODO: Implement the softmax function here #print("torch.exp(x)=" ...
Softmax vs. SoftmaxWithLoss 推导过程
Softmax vs. SoftmaxWithLoss Softmax function: Softmax Loss function(cross-entropy): SoftmaxWithLoss的 ...
softmax函数_干货 | 浅谈 Softmax 函数
点击上方"视学算法",马上关注来自 | 知乎作者 | LinT链接丨https://zhuanlan.zhihu.com/p/79585726编辑 | 深度学习这件小事公众号仅 ...
探究Softmax的替代品：exp(x)的偶次泰勒展开式总是正的
©PaperWeekly 原创 · 作者|苏剑林单位|追一科技研究方向|NLP.神经网络刚看到一个有意思的结论: 对于任意实数 x 及偶数 n,总有 ,即的偶次泰勒展开式总是正的. 下面我们来 ...
关于softmax loss这个概念
注意: 网上有很多softmax loss全称指的是:softmax layer with cross entropy loss. 但是: softmax layer with cross entro ...

Softmax Function

Sigmoid Function

Softmax Function

Relationship

Gradient to Z[L]Z[L]Z ^{[L]}

Gradient to Z[l]Z[l]Z ^{[l]}

Softmax Function相关推荐

最新文章

热门文章