Sigmoid 与 Softmax 的区别

结论
定义
图例
拓展：sigmoid、tanh求导
- sigmoid求导
- tanh求导

参考： Multi-label vs. Multi-class
Classification: Sigmoid vs. Softmax、 Sigmoid function、 Softmax function

结论

sigmoid：使大的值更大、小的值更小（数值被归整到0-1之间）；多用于多分类问题。

Linear regression的输出使用sigmoid激活后成为logistic regression，logistic regression能实现非线性特征变换，这也就是加深网络的意义。（Limitation of Logistic Regression）
类似的激活函数还有ReLU（rectified linear unit）、tanh（双曲正切）函数等（3.8 多层感知机）

softmax：使所有的值之和为1（保持数值间的大小关系）；可用于多标签分类问题。

和线性回归不同，softmax回归的输出单元从⼀个变成了多个，且引⼊了softmax运算使输出更适合离散值的预测和训练（3.4 softmax回归）

定义

sigmoid 处理的是单个输入值，不关注整体输入数据的关系。对于 K K K分类问题中处理样本 x i x_i xi有：
σ ( γ i j ) = 1 1 + e − γ i j f o r j = 1 , . . . , K \sigma( \gamma_{ij}) =\frac{1}{1+e^{-\gamma_{ij}}} \ \mathrm{for} \ j=1,...,K σ(γij)=1+e−γij1 for j=1,...,K

softmax 处理的是单个与整体的输入值，关注整体输入数据的关系。对于 K K K个标签的多分类问题中处理样本 x i x_i xi有：
s o f t m a x ( γ i j ) = e γ i j ∑ k = 1 K e γ i k f o r j = 1 , . . . , K softmax( \gamma_{ij})=\frac{e^{ \gamma_{ij}}}{\sum _{k=1}^{K} e^{ \gamma_{ik}}} \ \ \mathrm{for} \ j=1,...,K\ softmax(γij)=∑k=1Keγikeγij for j=1,...,K

图例

拓展：sigmoid、tanh求导

sigmoid求导

s i g m o i d = 1 1 + e − x \mathrm{sigmoid}=\frac{1}{1+e^{-x}} sigmoid=1+e−x1

s i g m o i d ′ ( x ) = d ( 1 1 + e − x ) d ( 1 + e − x ) ⋅ d ( 1 + e − x ) d ( − x ) ⋅ d ( − x ) d x = − 1 ( 1 + e − x ) 2 ⋅ e − x ⋅ − 1 = e − x + 1 − 1 ( 1 + e − x ) 2 = 1 1 + e − x − 1 ( 1 + e − x ) 2 = 1 1 + e − x ( 1 − 1 1 + e − x ) = s i g m o i d ( x ) ( 1 − s i g m o i d ( x ) ) \begin{aligned} \mathrm{sigmoid}'( x) &=\frac{\mathrm{d}\left(\frac{1}{1+e^{-x}}\right)}{\mathrm{d}\left( 1+e^{-x}\right)} \cdotp \frac{\mathrm{d}\left( 1+e^{-x}\right)}{\mathrm{d}( -x)} \cdot \frac{\mathrm{d}( -x)}{\mathrm{d} x}\\ &=-\frac{1}{\left( 1+e^{-x}\right)^{2}} \cdot e^{-x} \cdot -1\\ &=\frac{e^{-x} +1-1}{\left( 1+e^{-x}\right)^{2}} =\frac{1}{1+e^{-x}} -\frac{1}{\left( 1+e^{-x}\right)^{2}}\\ & =\frac{1}{1+e^{-x}}\left( 1-\frac{1}{1+e^{-x}}\right)\\ &=\mathrm{sigmoid}( x)\left( 1-\mathrm{sigmoid}( x)\right) \end{aligned} sigmoid′(x)=d(1+e−x)d(1+e−x1)⋅d(−x)d(1+e−x)⋅dxd(−x)=−(1+e−x)21⋅e−x⋅−1=(1+e−x)2e−x+1−1=1+e−x1−(1+e−x)21=1+e−x1(1−1+e−x1)=sigmoid(x)(1−sigmoid(x))

tanh求导

t a n h ( x ) = 1 − e − 2 x 1 + e − 2 x \mathrm{tanh}( x) =\frac{1-e^{-2x}}{1+e^{-2x}} tanh(x)=1+e−2x1−e−2x

t a n h ′ ( x ) = d ( 1 − e − 2 x ) d x ⋅ ( 1 + e − 2 x ) − ( 1 − e − 2 x ) ⋅ d ( 1 + e − 2 x ) d x ( 1 + e − 2 x ) 2 = d ( 1 − e − 2 x ) d ( − 2 x ) ⋅ ( − 2 ) ⋅ ( 1 + e − 2 x ) − ( 1 − e − 2 x ) ⋅ d ( 1 + e − 2 x ) d ( − 2 x ) ⋅ ( − 2 ) ( 1 + e − 2 x ) 2 = − e − 2 x ⋅ ( − 2 ) 1 + e − 2 x − ( 1 − e − 2 x ) ⋅ e − 2 x ⋅ ( − 2 ) ( 1 + e − 2 x ) 2 = 4 e − 2 x ( 1 + e − 2 x ) 2 = ( 1 + e − 2 x ) 2 − ( 1 − e − 2 x ) 2 ( 1 + e − 2 x ) 2 = 1 − t a n h 2 ( x ) \begin{aligned} \mathrm{tanh} '( x) &=\frac{\frac{\mathrm{d}\left( 1-e^{-2x}\right)}{\mathrm{d} x} \cdot \left( 1+e^{-2x}\right) -\left( 1-e^{-2x}\right) \cdot \frac{\mathrm{d}\left( 1+e^{-2x}\right)}{\mathrm{d} x}}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{\frac{\mathrm{d}\left( 1-e^{-2x}\right)}{\mathrm{d}( -2x)} \cdot ( -2) \cdot \left( 1+e^{-2x}\right) -\left( 1-e^{-2x}\right) \cdot \frac{\mathrm{d}\left( 1+e^{-2x}\right)}{\mathrm{d}( -2x)} \cdot ( -2)}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{-e^{-2x} \cdot ( -2)}{1+e^{-2x}} -\frac{\left( 1-e^{-2x}\right) \cdot e^{-2x} \cdot ( -2)}{\left( 1+e^{-2x}\right)^{2}} =\frac{4e^{-2x}}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{\left( 1+e^{-2x}\right)^{2} -\left( 1-e^{-2x}\right)^{2}}{\left( 1+e^{-2x}\right)^{2}}\\ &=1-\mathrm{tanh}^{2}( x) \end{aligned} tanh′(x)=(1+e−2x)2dxd(1−e−2x)⋅(1+e−2x)−(1−e−2x)⋅dxd(1+e−2x)=(1+e−2x)2d(−2x)d(1−e−2x)⋅(−2)⋅(1+e−2x)−(1−e−2x)⋅d(−2x)d(1+e−2x)⋅(−2)=1+e−2x−e−2x⋅(−2)−(1+e−2x)2(1−e−2x)⋅e−2x⋅(−2)=(1+e−2x)24e−2x=(1+e−2x)2(1+e−2x)2−(1−e−2x)2=1−tanh2(x)

Sigmoid 与 Softmax 的区别相关推荐

sigmoid与softmax的区别与联系
阅文原文 Softmax与Sigmoid有哪些区别与联系? 1. Sigmoid函数 SigmoidSigmoidSigmoid函数也叫LogisticLogisticLogistic函数,将输入值压 ...
sigmoid和softmax激活函数的区别
一.简单说下sigmoid激活函数解析: 常用的非线性激活函数有sigmoid.tanh.relu等等,前两者sigmoid/tanh比较常见于全连接层,后者relu常见于卷积层.这里先简要介绍下最 ...
广义线性模型？链接函数？sigmoid和softmax？Logistic处理多分类问题？logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合、优缺点
广义线性模型?链接函数?sigmoid和softmax?Logistic处理多分类问题?logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合.优缺点 ...
softmax sigmoid log softmax 辨析
原文链接: sigmoid和softmax总结_老哥的专栏-CSDN博客_sigmoid和softmax区别浅谈sigmoid函数和softmax函数_甘如荠-CSDN博客_sigmoid函数与so ...
ML/DL之激活函数/求导函数：ML中常用的AF激活函数(step_function、sigmoid、softmax、ReLU等)求导函数等代码实现之详细攻略
ML/DL之激活函数/求导函数:ML中常用的AF激活函数(step_function.sigmoid.softmax.ReLU等)&求导函数等代码实现之详细攻略目录 AF函数&求导函 ...
DL之AF：机器学习/深度学习中常用的激活函数(sigmoid、softmax等)简介、应用、计算图实现、代码实现详细攻略
DL之AF:机器学习/深度学习中常用的激活函数(sigmoid.softmax等)简介.应用.计算图实现.代码实现详细攻略目录激活函数(Activation functions)相关配图各个激活 ...
ReLU,Sigmoid,Tanh,softmax,pipeline【基础知识总结】
一.ReLU(Rectified Linear Activation Function) 1.优点 2.缺点 3.补充 1.Leaky ReLUs 2.参数化修正线性单元(PReLU) 3.随机纠正线 ...
sigmoid和softmax区别
Softmax Softmax是对一个向量进行归一化的过程,每个元素的输出都与整个向量相关.softmax通常作为最后一层的激活函数,用于分类任务,并且搭配交叉熵损失共同使用,用于分类任务.因此很多框 ...
广义线性模型、Logistic、sigmoid、softmax、多分类、与大数据、优缺点
广义线性模型.广义线性模型的数学形式.Logistic回归.sigmoid函数.softmax函数.Logistic多分类.Logistic与大数据.Logistic回归优缺点总结目录

Sigmoid 与 Softmax 的区别

Sigmoid 与 Softmax 的区别

结论

定义

图例

拓展：sigmoid、tanh求导

sigmoid求导

tanh求导

Sigmoid 与 Softmax 的区别相关推荐

最新文章

热门文章