Sigmoid 与 Softmax 的区别
Sigmoid 与 Softmax 的区别
- 结论
- 定义
- 图例
- 拓展:sigmoid、tanh求导
- sigmoid求导
- tanh求导
参考: Multi-label vs. Multi-class
Classification: Sigmoid vs. Softmax、 Sigmoid function、 Softmax function
结论
sigmoid:使大的值更大、小的值更小(数值被归整到0-1之间);多用于多分类问题。
- Linear regression的输出使用sigmoid激活后成为logistic regression,logistic regression能实现非线性特征变换,这也就是加深网络的意义。(Limitation of Logistic Regression)
- 类似的激活函数还有ReLU(rectified linear unit)、tanh(双曲正切)函数等(3.8 多层感知机)
softmax:使所有的值之和为1(保持数值间的大小关系);可用于多标签分类问题。
- 和线性回归不同,softmax回归的输出单元从⼀个变成了多个,且引⼊了softmax运算使输出更适合离散值的预测和训练(3.4 softmax回归)
定义
sigmoid 处理的是单个输入值,不关注整体输入数据的关系。对于 K K K分类问题中处理样本 x i x_i xi有:
σ ( γ i j ) = 1 1 + e − γ i j f o r j = 1 , . . . , K \sigma( \gamma_{ij}) =\frac{1}{1+e^{-\gamma_{ij}}} \ \mathrm{for} \ j=1,...,K σ(γij)=1+e−γij1 for j=1,...,K
softmax 处理的是单个与整体的输入值,关注整体输入数据的关系。对于 K K K个标签的多分类问题中处理样本 x i x_i xi有:
s o f t m a x ( γ i j ) = e γ i j ∑ k = 1 K e γ i k f o r j = 1 , . . . , K softmax( \gamma_{ij})=\frac{e^{ \gamma_{ij}}}{\sum _{k=1}^{K} e^{ \gamma_{ik}}} \ \ \mathrm{for} \ j=1,...,K\ softmax(γij)=∑k=1Keγikeγij for j=1,...,K
图例
拓展:sigmoid、tanh求导
sigmoid求导
s i g m o i d = 1 1 + e − x \mathrm{sigmoid}=\frac{1}{1+e^{-x}} sigmoid=1+e−x1
s i g m o i d ′ ( x ) = d ( 1 1 + e − x ) d ( 1 + e − x ) ⋅ d ( 1 + e − x ) d ( − x ) ⋅ d ( − x ) d x = − 1 ( 1 + e − x ) 2 ⋅ e − x ⋅ − 1 = e − x + 1 − 1 ( 1 + e − x ) 2 = 1 1 + e − x − 1 ( 1 + e − x ) 2 = 1 1 + e − x ( 1 − 1 1 + e − x ) = s i g m o i d ( x ) ( 1 − s i g m o i d ( x ) ) \begin{aligned} \mathrm{sigmoid}'( x) &=\frac{\mathrm{d}\left(\frac{1}{1+e^{-x}}\right)}{\mathrm{d}\left( 1+e^{-x}\right)} \cdotp \frac{\mathrm{d}\left( 1+e^{-x}\right)}{\mathrm{d}( -x)} \cdot \frac{\mathrm{d}( -x)}{\mathrm{d} x}\\ &=-\frac{1}{\left( 1+e^{-x}\right)^{2}} \cdot e^{-x} \cdot -1\\ &=\frac{e^{-x} +1-1}{\left( 1+e^{-x}\right)^{2}} =\frac{1}{1+e^{-x}} -\frac{1}{\left( 1+e^{-x}\right)^{2}}\\ & =\frac{1}{1+e^{-x}}\left( 1-\frac{1}{1+e^{-x}}\right)\\ &=\mathrm{sigmoid}( x)\left( 1-\mathrm{sigmoid}( x)\right) \end{aligned} sigmoid′(x)=d(1+e−x)d(1+e−x1)⋅d(−x)d(1+e−x)⋅dxd(−x)=−(1+e−x)21⋅e−x⋅−1=(1+e−x)2e−x+1−1=1+e−x1−(1+e−x)21=1+e−x1(1−1+e−x1)=sigmoid(x)(1−sigmoid(x))
tanh求导
t a n h ( x ) = 1 − e − 2 x 1 + e − 2 x \mathrm{tanh}( x) =\frac{1-e^{-2x}}{1+e^{-2x}} tanh(x)=1+e−2x1−e−2x
t a n h ′ ( x ) = d ( 1 − e − 2 x ) d x ⋅ ( 1 + e − 2 x ) − ( 1 − e − 2 x ) ⋅ d ( 1 + e − 2 x ) d x ( 1 + e − 2 x ) 2 = d ( 1 − e − 2 x ) d ( − 2 x ) ⋅ ( − 2 ) ⋅ ( 1 + e − 2 x ) − ( 1 − e − 2 x ) ⋅ d ( 1 + e − 2 x ) d ( − 2 x ) ⋅ ( − 2 ) ( 1 + e − 2 x ) 2 = − e − 2 x ⋅ ( − 2 ) 1 + e − 2 x − ( 1 − e − 2 x ) ⋅ e − 2 x ⋅ ( − 2 ) ( 1 + e − 2 x ) 2 = 4 e − 2 x ( 1 + e − 2 x ) 2 = ( 1 + e − 2 x ) 2 − ( 1 − e − 2 x ) 2 ( 1 + e − 2 x ) 2 = 1 − t a n h 2 ( x ) \begin{aligned} \mathrm{tanh} '( x) &=\frac{\frac{\mathrm{d}\left( 1-e^{-2x}\right)}{\mathrm{d} x} \cdot \left( 1+e^{-2x}\right) -\left( 1-e^{-2x}\right) \cdot \frac{\mathrm{d}\left( 1+e^{-2x}\right)}{\mathrm{d} x}}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{\frac{\mathrm{d}\left( 1-e^{-2x}\right)}{\mathrm{d}( -2x)} \cdot ( -2) \cdot \left( 1+e^{-2x}\right) -\left( 1-e^{-2x}\right) \cdot \frac{\mathrm{d}\left( 1+e^{-2x}\right)}{\mathrm{d}( -2x)} \cdot ( -2)}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{-e^{-2x} \cdot ( -2)}{1+e^{-2x}} -\frac{\left( 1-e^{-2x}\right) \cdot e^{-2x} \cdot ( -2)}{\left( 1+e^{-2x}\right)^{2}} =\frac{4e^{-2x}}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{\left( 1+e^{-2x}\right)^{2} -\left( 1-e^{-2x}\right)^{2}}{\left( 1+e^{-2x}\right)^{2}}\\ &=1-\mathrm{tanh}^{2}( x) \end{aligned} tanh′(x)=(1+e−2x)2dxd(1−e−2x)⋅(1+e−2x)−(1−e−2x)⋅dxd(1+e−2x)=(1+e−2x)2d(−2x)d(1−e−2x)⋅(−2)⋅(1+e−2x)−(1−e−2x)⋅d(−2x)d(1+e−2x)⋅(−2)=1+e−2x−e−2x⋅(−2)−(1+e−2x)2(1−e−2x)⋅e−2x⋅(−2)=(1+e−2x)24e−2x=(1+e−2x)2(1+e−2x)2−(1−e−2x)2=1−tanh2(x)
Sigmoid 与 Softmax 的区别相关推荐
- sigmoid与softmax的区别与联系
阅文原文 Softmax与Sigmoid有哪些区别与联系? 1. Sigmoid函数 SigmoidSigmoidSigmoid函数也叫LogisticLogisticLogistic函数,将输入值压 ...
- sigmoid和softmax激活函数的区别
一.简单说下sigmoid激活函数 解析: 常用的非线性激活函数有sigmoid.tanh.relu等等,前两者sigmoid/tanh比较常见于全连接层,后者relu常见于卷积层.这里先简要介绍下最 ...
- 广义线性模型?链接函数?sigmoid和softmax?Logistic处理多分类问题?logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合、优缺点
广义线性模型?链接函数?sigmoid和softmax?Logistic处理多分类问题?logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合.优缺点 ...
- softmax sigmoid log softmax 辨析
原文链接: sigmoid和softmax总结_老哥的专栏-CSDN博客_sigmoid和softmax区别 浅谈sigmoid函数和softmax函数_甘如荠-CSDN博客_sigmoid函数与so ...
- ML/DL之激活函数/求导函数:ML中常用的AF激活函数(step_function、sigmoid、softmax、ReLU等)求导函数等代码实现之详细攻略
ML/DL之激活函数/求导函数:ML中常用的AF激活函数(step_function.sigmoid.softmax.ReLU等)&求导函数等代码实现之详细攻略 目录 AF函数&求导函 ...
- DL之AF:机器学习/深度学习中常用的激活函数(sigmoid、softmax等)简介、应用、计算图实现、代码实现详细攻略
DL之AF:机器学习/深度学习中常用的激活函数(sigmoid.softmax等)简介.应用.计算图实现.代码实现详细攻略 目录 激活函数(Activation functions)相关配图 各个激活 ...
- ReLU,Sigmoid,Tanh,softmax,pipeline【基础知识总结】
一.ReLU(Rectified Linear Activation Function) 1.优点 2.缺点 3.补充 1.Leaky ReLUs 2.参数化修正线性单元(PReLU) 3.随机纠正线 ...
- sigmoid和softmax区别
Softmax Softmax是对一个向量进行归一化的过程,每个元素的输出都与整个向量相关.softmax通常作为最后一层的激活函数,用于分类任务,并且搭配交叉熵损失共同使用,用于分类任务.因此很多框 ...
- 广义线性模型、Logistic、sigmoid、softmax、多分类、与大数据、优缺点
广义线性模型.广义线性模型的数学形式.Logistic回归.sigmoid函数.softmax函数.Logistic多分类.Logistic与大数据.Logistic回归优缺点总结 目录
最新文章
- 深度学习算法实践(基于Theano和TensorFlow)
- 如何将现有的非空目录转换为Git工作目录并将文件推送到远程存储库
- 工业级光电转换器产品介绍
- windows下使用cmake+mingw配置makefile(1)
- html file 隐藏,input type=file /浏览时只显示指定文件类型(html5新特性)
- 编写带对话框界面的OCX
- quickselect java,实现快速选择
- 清空缓存的命令_布隆过滤器应用——解决Redis缓存穿透问题
- 机器人技术与人工智能有什么区别?
- adobe pdf for linux,Linux PDF阅读软件Adobe Reader 9.5.5发布( for linux)
- 正则匹配特殊符号及标点符号
- mysql workbench安装配置_Mysql WorkBench安装配置图文教程
- webpack5从零搭建一个项目
- 英国易捷航空遭黑客入侵 约900万客户数据被窃取
- 如何让你自己做的网站他人可以访问——外网访问
- 学习 stm32(TTL)串口通信控制16路舵机控制板(维特智能)
- NOI / 1.13编程基础之综合应用 21:最大质因子序列
- maven加载依赖时总是Updating [central] https://repo.maven.apache.org/maven2
- 服务器硬盘坏了怎么看,服务器硬盘坏了怎么办?如何修复服务器硬盘?
- 金融科技企业哪家强?来看“2020中关村金融科技30强榜单”
热门文章
- 【高等数学】函数与极限
- Chrome 清除特定网站的 cookie
- 数据结构实验报告:图的基本操作及应用
- 大数据有哪些培训机构?
- 我参加NVIDIA Sky Hackathon(语音识别模型训练)
- MySQL的utf8与utf8mb4编码,以及utf8_bin、utf8_general_ci编码区别
- ORB-SLAM2 --- LoopClosing::ComputeSim3 函数
- 2019,向着迷茫的远方前行
- google code
- 【教学类-17-02】20221125《世界杯七巧板A4整页-随机参考图七巧板 3份一页》(大班)