Sigmoid 与 Softmax 的区别

  • 结论
  • 定义
  • 图例
  • 拓展:sigmoid、tanh求导
    • sigmoid求导
    • tanh求导

参考: Multi-label vs. Multi-class
Classification: Sigmoid vs. Softmax、 Sigmoid function、 Softmax function

结论

sigmoid:使大的值更大、小的值更小(数值被归整到0-1之间);多用于多分类问题。

  • Linear regression的输出使用sigmoid激活后成为logistic regression,logistic regression能实现非线性特征变换,这也就是加深网络的意义。(Limitation of Logistic Regression)
  • 类似的激活函数还有ReLU(rectified linear unit)、tanh(双曲正切)函数等(3.8 多层感知机)

softmax:使所有的值之和为1(保持数值间的大小关系);可用于多标签分类问题。

  • 和线性回归不同,softmax回归的输出单元从⼀个变成了多个,且引⼊了softmax运算使输出更适合离散值的预测和训练(3.4 softmax回归)

定义

sigmoid 处理的是单个输入值,不关注整体输入数据的关系。对于 K K K分类问题中处理样本 x i x_i xi​有:
σ ( γ i j ) = 1 1 + e − γ i j f o r j = 1 , . . . , K \sigma( \gamma_{ij}) =\frac{1}{1+e^{-\gamma_{ij}}} \ \mathrm{for} \ j=1,...,K σ(γij​)=1+e−γij​1​ for j=1,...,K

softmax 处理的是单个与整体的输入值,关注整体输入数据的关系。对于 K K K个标签的多分类问题中处理样本 x i x_i xi​有:
s o f t m a x ( γ i j ) = e γ i j ∑ k = 1 K e γ i k f o r j = 1 , . . . , K softmax( \gamma_{ij})=\frac{e^{ \gamma_{ij}}}{\sum _{k=1}^{K} e^{ \gamma_{ik}}} \ \ \mathrm{for} \ j=1,...,K\ softmax(γij​)=∑k=1K​eγik​eγij​​  for j=1,...,K

图例


拓展:sigmoid、tanh求导

sigmoid求导

s i g m o i d = 1 1 + e − x \mathrm{sigmoid}=\frac{1}{1+e^{-x}} sigmoid=1+e−x1​

s i g m o i d ′ ( x ) = d ( 1 1 + e − x ) d ( 1 + e − x ) ⋅ d ( 1 + e − x ) d ( − x ) ⋅ d ( − x ) d x = − 1 ( 1 + e − x ) 2 ⋅ e − x ⋅ − 1 = e − x + 1 − 1 ( 1 + e − x ) 2 = 1 1 + e − x − 1 ( 1 + e − x ) 2 = 1 1 + e − x ( 1 − 1 1 + e − x ) = s i g m o i d ( x ) ( 1 − s i g m o i d ( x ) ) \begin{aligned} \mathrm{sigmoid}'( x) &=\frac{\mathrm{d}\left(\frac{1}{1+e^{-x}}\right)}{\mathrm{d}\left( 1+e^{-x}\right)} \cdotp \frac{\mathrm{d}\left( 1+e^{-x}\right)}{\mathrm{d}( -x)} \cdot \frac{\mathrm{d}( -x)}{\mathrm{d} x}\\ &=-\frac{1}{\left( 1+e^{-x}\right)^{2}} \cdot e^{-x} \cdot -1\\ &=\frac{e^{-x} +1-1}{\left( 1+e^{-x}\right)^{2}} =\frac{1}{1+e^{-x}} -\frac{1}{\left( 1+e^{-x}\right)^{2}}\\ & =\frac{1}{1+e^{-x}}\left( 1-\frac{1}{1+e^{-x}}\right)\\ &=\mathrm{sigmoid}( x)\left( 1-\mathrm{sigmoid}( x)\right) \end{aligned} sigmoid′(x)​=d(1+e−x)d(1+e−x1​)​⋅d(−x)d(1+e−x)​⋅dxd(−x)​=−(1+e−x)21​⋅e−x⋅−1=(1+e−x)2e−x+1−1​=1+e−x1​−(1+e−x)21​=1+e−x1​(1−1+e−x1​)=sigmoid(x)(1−sigmoid(x))​

tanh求导

t a n h ( x ) = 1 − e − 2 x 1 + e − 2 x \mathrm{tanh}( x) =\frac{1-e^{-2x}}{1+e^{-2x}} tanh(x)=1+e−2x1−e−2x​

t a n h ′ ( x ) = d ( 1 − e − 2 x ) d x ⋅ ( 1 + e − 2 x ) − ( 1 − e − 2 x ) ⋅ d ( 1 + e − 2 x ) d x ( 1 + e − 2 x ) 2 = d ( 1 − e − 2 x ) d ( − 2 x ) ⋅ ( − 2 ) ⋅ ( 1 + e − 2 x ) − ( 1 − e − 2 x ) ⋅ d ( 1 + e − 2 x ) d ( − 2 x ) ⋅ ( − 2 ) ( 1 + e − 2 x ) 2 = − e − 2 x ⋅ ( − 2 ) 1 + e − 2 x − ( 1 − e − 2 x ) ⋅ e − 2 x ⋅ ( − 2 ) ( 1 + e − 2 x ) 2 = 4 e − 2 x ( 1 + e − 2 x ) 2 = ( 1 + e − 2 x ) 2 − ( 1 − e − 2 x ) 2 ( 1 + e − 2 x ) 2 = 1 − t a n h 2 ( x ) \begin{aligned} \mathrm{tanh} '( x) &=\frac{\frac{\mathrm{d}\left( 1-e^{-2x}\right)}{\mathrm{d} x} \cdot \left( 1+e^{-2x}\right) -\left( 1-e^{-2x}\right) \cdot \frac{\mathrm{d}\left( 1+e^{-2x}\right)}{\mathrm{d} x}}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{\frac{\mathrm{d}\left( 1-e^{-2x}\right)}{\mathrm{d}( -2x)} \cdot ( -2) \cdot \left( 1+e^{-2x}\right) -\left( 1-e^{-2x}\right) \cdot \frac{\mathrm{d}\left( 1+e^{-2x}\right)}{\mathrm{d}( -2x)} \cdot ( -2)}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{-e^{-2x} \cdot ( -2)}{1+e^{-2x}} -\frac{\left( 1-e^{-2x}\right) \cdot e^{-2x} \cdot ( -2)}{\left( 1+e^{-2x}\right)^{2}} =\frac{4e^{-2x}}{\left( 1+e^{-2x}\right)^{2}}\\ &=\frac{\left( 1+e^{-2x}\right)^{2} -\left( 1-e^{-2x}\right)^{2}}{\left( 1+e^{-2x}\right)^{2}}\\ &=1-\mathrm{tanh}^{2}( x) \end{aligned} tanh′(x)​=(1+e−2x)2dxd(1−e−2x)​⋅(1+e−2x)−(1−e−2x)⋅dxd(1+e−2x)​​=(1+e−2x)2d(−2x)d(1−e−2x)​⋅(−2)⋅(1+e−2x)−(1−e−2x)⋅d(−2x)d(1+e−2x)​⋅(−2)​=1+e−2x−e−2x⋅(−2)​−(1+e−2x)2(1−e−2x)⋅e−2x⋅(−2)​=(1+e−2x)24e−2x​=(1+e−2x)2(1+e−2x)2−(1−e−2x)2​=1−tanh2(x)​

Sigmoid 与 Softmax 的区别相关推荐

  1. sigmoid与softmax的区别与联系

    阅文原文 Softmax与Sigmoid有哪些区别与联系? 1. Sigmoid函数 SigmoidSigmoidSigmoid函数也叫LogisticLogisticLogistic函数,将输入值压 ...

  2. sigmoid和softmax激活函数的区别

    一.简单说下sigmoid激活函数 解析: 常用的非线性激活函数有sigmoid.tanh.relu等等,前两者sigmoid/tanh比较常见于全连接层,后者relu常见于卷积层.这里先简要介绍下最 ...

  3. 广义线性模型?链接函数?sigmoid和softmax?Logistic处理多分类问题?logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合、优缺点

    广义线性模型?链接函数?sigmoid和softmax?Logistic处理多分类问题?logistic回归处理超大数据?使用logistic和randomsearch进行组合获取最优参数组合.优缺点 ...

  4. softmax sigmoid log softmax 辨析

    原文链接: sigmoid和softmax总结_老哥的专栏-CSDN博客_sigmoid和softmax区别 浅谈sigmoid函数和softmax函数_甘如荠-CSDN博客_sigmoid函数与so ...

  5. ML/DL之激活函数/求导函数:ML中常用的AF激活函数(step_function、sigmoid、softmax、ReLU等)求导函数等代码实现之详细攻略

    ML/DL之激活函数/求导函数:ML中常用的AF激活函数(step_function.sigmoid.softmax.ReLU等)&求导函数等代码实现之详细攻略 目录 AF函数&求导函 ...

  6. DL之AF:机器学习/深度学习中常用的激活函数(sigmoid、softmax等)简介、应用、计算图实现、代码实现详细攻略

    DL之AF:机器学习/深度学习中常用的激活函数(sigmoid.softmax等)简介.应用.计算图实现.代码实现详细攻略 目录 激活函数(Activation functions)相关配图 各个激活 ...

  7. ReLU,Sigmoid,Tanh,softmax,pipeline【基础知识总结】

    一.ReLU(Rectified Linear Activation Function) 1.优点 2.缺点 3.补充 1.Leaky ReLUs 2.参数化修正线性单元(PReLU) 3.随机纠正线 ...

  8. sigmoid和softmax区别

    Softmax Softmax是对一个向量进行归一化的过程,每个元素的输出都与整个向量相关.softmax通常作为最后一层的激活函数,用于分类任务,并且搭配交叉熵损失共同使用,用于分类任务.因此很多框 ...

  9. 广义线性模型、Logistic、sigmoid、softmax、多分类、与大数据、优缺点

    广义线性模型.广义线性模型的数学形式.Logistic回归.sigmoid函数.softmax函数.Logistic多分类.Logistic与大数据.Logistic回归优缺点总结 目录

最新文章

  1. 深度学习算法实践(基于Theano和TensorFlow)
  2. 如何将现有的非空目录转换为Git工作目录并将文件推送到远程存储库
  3. 工业级光电转换器产品介绍
  4. windows下使用cmake+mingw配置makefile(1)
  5. html file 隐藏,input type=file /浏览时只显示指定文件类型(html5新特性)
  6. 编写带对话框界面的OCX
  7. quickselect java,实现快速选择
  8. 清空缓存的命令_布隆过滤器应用——解决Redis缓存穿透问题
  9. 机器人技术与人工智能有什么区别?
  10. adobe pdf for linux,Linux PDF阅读软件Adobe Reader 9.5.5发布( for linux)
  11. 正则匹配特殊符号及标点符号
  12. mysql workbench安装配置_Mysql WorkBench安装配置图文教程
  13. webpack5从零搭建一个项目
  14. 英国易捷航空遭黑客入侵 约900万客户数据被窃取
  15. 如何让你自己做的网站他人可以访问——外网访问
  16. 学习 stm32(TTL)串口通信控制16路舵机控制板(维特智能)
  17. NOI / 1.13编程基础之综合应用 21:最大质因子序列
  18. maven加载依赖时总是Updating [central] https://repo.maven.apache.org/maven2
  19. 服务器硬盘坏了怎么看,服务器硬盘坏了怎么办?如何修复服务器硬盘?
  20. 金融科技企业哪家强?来看“2020中关村金融科技30强榜单”

热门文章

  1. 【高等数学】函数与极限
  2. Chrome 清除特定网站的 cookie
  3. 数据结构实验报告:图的基本操作及应用
  4. 大数据有哪些培训机构?
  5. 我参加NVIDIA Sky Hackathon(语音识别模型训练)
  6. MySQL的utf8与utf8mb4编码,以及utf8_bin、utf8_general_ci编码区别
  7. ORB-SLAM2 --- LoopClosing::ComputeSim3 函数
  8. 2019,向着迷茫的远方前行
  9. google code
  10. 【教学类-17-02】20221125《世界杯七巧板A4整页-随机参考图七巧板 3份一页》(大班)