Sparsemax封闭形式解及其损失函数的推导

本文目标是三个方面。第一部分讨论了sparsemax背后的动机及其与softmax的关系,首次介绍了该激活函数的原始研究论文摘要,以及使用sparsemax的优点概述。第二部分和第三部分专门讨论数学推导,具体地找到闭合形式的解以及适当的损失函数。

1.Sparsemax概述

Martins等人通过论文《From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification》引入Sparsemax,提出了一种替代众所周知的softmax激活函数的新方法

虽然softmax是输出在K个概率上归一化的概率分布的多类分类的适当选择,但在许多任务中,我们希望获得一个更稀疏的输出。Martins引入了一个新的激活函数sparsemax,该函数输出多项式分布的稀疏概率,因此从分布的质量中滤除了噪声。

这意味着sparsemax将为某些类分配恰好为0的概率,而softmax会保留这些类并为它们分配非常小的值,如10-3。在大型分类问题中,稀疏最大值可能特别有利;例如在自然语言处理(NLP)任务中,其中softmax层正在非常大的词汇集上进行多项分布建模。

但是,实际上,将softmax函数更改为稀疏估计器并不是一件容易的事。在保持softmax的一些基本属性的同时获得这种转换(例如,易于评估,易于微分并容易转换为凸损失函数)变得非常具有挑战性。

机器学习中解决该问题的传统方法是使用L1惩罚,该惩罚在神经网络中的输入变量和/或深层方面允许一定程度的稀疏性。虽然这种方法相对简单,但是L1惩罚会影响神经网络的权重,而不是作为稀疏概率的目标输出

因此,论文作者认识到需要补充激活功能, sparsemax,他们将其公式化为可解决的二次问题,并在一组约束条件下找到一个解决方案,以获得与softmax类似的性质。

在深入研究sparsemax实现背后的证据之前,让我们首先讨论论文中的一些重要的高级发现。以下要点总结了一些主要内容:

Sparsemax是分段线性激活函数

尽管softmax形状等效于传统的S型函数,但Sparsemax在一个维度上却是"硬"的S型。此外,在两个维度上,sparsemax是具有整个饱和区域(0或1)的分段线性函数。这是论文中的图表,可帮助可视化softmax和sparsemax。

softmax函数_数学证明深度学习激活函数从Softmax到Sparsemax相关推荐

  1. 深度学习激活函数总结(sigmoid,tanh,ReLU,Leaky ReLU,EReLU,PReLU,Softmax,Swish,Maxout,Softplus)

    摘要 本文总结了深度学习领域最常见的10中激活函数(sigmoid.Tanh.ReLU.Leaky ReLU.ELU.PReLU.Softmax.Swith.Maxout.Softplus)及其优缺点 ...

  2. softmax函数_干货 | 浅谈 Softmax 函数

    点击上方"视学算法",马上关注 来自 | 知乎 作者 | LinT链接丨https://zhuanlan.zhihu.com/p/79585726编辑 | 深度学习这件小事公众号仅 ...

  3. 深度学习激活函数可视化:tanh与relu的比较

    深度学习激活函数可视化:tanh与relu的比较 激活函数是神经网络中非常重要的组成部分,它可以将输入值映射到输出值,并为网络提供非线性性.其中,tanh和relu是两种常用的激活函数,它们在神经网络 ...

  4. 机器学习中的数学 人工智能深度学习技术丛书

    作者:孙博 著 出版社:中国水利水电出版社 品牌:智博尚书 出版时间:2019-11-01 机器学习中的数学 人工智能深度学习技术丛书 ISBN:9787517077190

  5. 深度学习激活函数中的线性整流函数ReLU及其变种

    线性整流函数ReLU         线性整流函数(Rectified Linear Unit, ReLU),又称修正线性单元, 是一种人工神经网络中常用的激活函数(activation functi ...

  6. 函数求值需要运行所有线程_精读《深度学习 - 函数式之美》

    1 引言 函数式语言在深度学习领域应用很广泛,因为函数式与深度学习模型的契合度很高,The Beauty of Functional Languages in Deep Learning - Cloj ...

  7. python图像分类代码_医学图像 | 使用深度学习实现乳腺癌分类(附python演练)

    乳腺癌是全球第二常见的女性癌症.2012年,它占所有新癌症病例的12%,占所有女性癌症病例的25%. 当乳腺细胞生长失控时,乳腺癌就开始了.这些细胞通常形成一个肿瘤,通常可以在x光片上直接看到或感觉到 ...

  8. 基于深度学习的病理_组织病理学的深度学习(第二部分)

    基于深度学习的病理 计算机视觉/深度学习/医学影像 (COMPUTER VISION/ DEEP LEARNING/ MEDICAL IMAGING) In the last part, we sta ...

  9. python书籍读后感_《Python深度学习》读书记录

    提前声明:以下内容是本人读<Python深度学习>的个人笔记 第一部分:基础 数据存储在多维 Numpy 数组中,也叫张量(tensor) 仅包含一个数字的张量叫作标量(scalar,也叫 ...

最新文章

  1. 嵌入式驱动开发 视频学习推荐
  2. 常见模块设计--数据字典
  3. IntelliJ IDEA 15快捷键大全
  4. ctype.h(cctype) 头文件函数大全
  5. Oracle入门(十四.5)之识别数据类型
  6. 根深才能叶茂:基础软件突破亟待产业界携手创新完善生态
  7. FM算法及FFM算法
  8. 学生学籍管理系统C语言实现
  9. 暴风影音去广告补丁NSIS代码开放
  10. NORADLE - 基于oracle数据库的最简捷信息系统架构
  11. 如何将成绩用C语言分,如何利用C语言实现简单的分数化简
  12. Bootstrap基础三 排版
  13. java filter 重定向_在Filter的doFilter中进行重定向 出现异常
  14. 【C语言进阶】C语言程序设计:动态通讯录(顺序表实现)
  15. 5.8日 ksjsb 小黄鸟抓快手ck教程
  16. 判断和推论_数据科学的假设和推论
  17. Ubuntu下.py文件的运行
  18. OpenCV学习笔记-傅里叶变换
  19. R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
  20. webpack、npm 相关错误汇总

热门文章

  1. 邮件整体解决方案_面向未来的冻干机进出料解决方案:阿尔法(ALUS)系列自动进出料系统...
  2. SSL_TLS快速扫描器SSLScan常用命令集合大学霸IT达人
  3. Swift3.0语言教程组合字符串
  4. Swift2.0语言教程之函数的返回值与函数类型
  5. EMD算法原理与python实现
  6. 「我要出轨了」!伯克利的这个AI,可以预测机器人何时将脱离
  7. 2020中国人工智能年度评选开启,4大类别7大奖项申报正式启动
  8. Uber无人车撞死人,安全员被控过失杀人,算法免于追责
  9. 《柳叶刀》:群体免疫不靠谱!欧洲迄今最大新冠血清学调查显示,西班牙抗体阳性率仅5%...
  10. 这个对标苹果的微软实体店,开了十一年之后,现在要永久关闭了