©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

刚看到一个有意思的结论:

对于任意实数 x 及偶数 n,总有 ,即 的偶次泰勒展开式总是正的。

下面我们来看一下这个结论的证明,以及它在寻找 softmax 替代品中的应用。

证明过程

看上去这是一个很强的结果,证明会不会很复杂?其实证明非常简单,记:

当 n 是偶数时,我们有 ,即整体是开口向上的,所以我们只需要证明它的最小值大于 0 就行了,又因为它是一个光滑连续的多项式函数,所以最小值点必然是某个极小值点。那么换个角度想,我们只需要证明它所有的极值点(不管是极大还是极小)所对应的函数值都大于 0。

求极值点的方法自然是求导,而 的一个美妙之处在于,它的导函数满足:

极值点满足 ,那也就是满足 ,此时有:

因此我们就证明了 的所有极值点对应的函数值都非负了,所以恒有 ,并且还可以检验 并不是极值点,所以 可以改为 >。证毕。

应用场景

事实上,笔者是在 Arxiv 的新文章 Exploring Alternatives to Softmax Function [1] 看到这个结论的。原论文给出了一个基于数学归纳法的比较复杂的证明,上述证明则是笔者自己构思的,相对来说更加简单明了一些。

那么原论文为什么要得到这个结论呢?顾名思义,是为了探究 softmax 的替代品。我们知道,在机器学习中常用的将输出变为概率分布的方法是加上 softmax:

而由于 n 是偶数是 ,并且 在一定范围内还是 的近似,所以将 换成 也可以作为合理的归一化函数:

原论文做了几个实验,表明 比常规的 softmax 有一定的提升:

▲ softmax与其泰勒展开近似的效果比较

稍加评述

然而,在笔者看来,这个实验结果很难有什么说服力,毕竟所用的 baseline 效果太低了(都 2020 年了,你好歹跑个 ResNet 吧?)。此外,原论文也没有提供关于这个替代品的一些直观理解,纯粹是做了简单的实验然后说它 work 了,实在是过于粗糙。

不过,尽管原论文有诸多不足之处,笔者认为其提出的 倒是真的有可能是有效的。从 softmax 到 的过程,实际上是将激活函数从指数函数换成了多项式函数,这两者有什么区别呢?

我们知道 |x| 比较大的时候, 会增加/衰减得很快,这直接导致了 softmax 经常给出的置信度过高的现象(概率值非 0 即 1),而相对来说,多项式函数的增长没有那么猛,不容易出现置信度过高问题,从而没那么容易过拟合。

类似的改动也出现在经典的降维方法 t-SNE 中,t-SNE 的前身是 SNE,SNE 就是构造了类似 softmax 的指数形式的概率分布,然后被发现有“Crowding 问题”(参考最小熵原理:“物以类聚”之从图书馆到词向量),最后 t-SNE 将指数换成二次函数就好很多了,感觉 跟 t-SNE 的思想有一定的相通之处。

文章小结

本文的主要目的是介绍“ 的偶次泰勒展开式总是正的”这个颇有意思的结论,并且顺带介绍了它在寻找 softmax 替代品中的应用。

参考文献

[1] https://arxiv.org/abs/2011.11538

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

探究Softmax的替代品:exp(x)的偶次泰勒展开式总是正的相关推荐

  1. ORACLE exp时出现1455错误,全网唯一正解,建议收藏

    文章目录 一.问题描述 二.问题解决办法 2.1 解决Oracle11G空表不占空间问题 2.2 查看视图是否有编译出错 一.问题描述 在使用exp username/password命令导出用户数据 ...

  2. Softmax 函数及其作用(含推导)

    Softmax函数的定义及作用 Softmax是一种形如下式的函数: P(i)=exp(θTix)∑Kk=1exp(θTkx) 其中 θi和x是列向量, θTix可能被换成函数关于x的函数 fi(x) ...

  3. 深度学习:用于multinoulli输出分布的softmax单元

    首先说明Bernoulli分布对应sigmoid单元,Multinoulli分布对应softmax单元.了解multinoulli分布请看:机器学习:Multinoulli分布与多项式分布. soft ...

  4. softmax ce loss_手写softmax和cross entropy

    import 解释下给定的数据,x假设是fc layer的输出,可以看到这里x是(3,3)的,也就是batch_size=3,n_classes=3.但是label给出了三个数,取值是0,1,因此这里 ...

  5. pytorch nn.Softmax

    应用 m = nn.Softmax(dim=1) input = torch.randn(2, 3) output = m(input) 概念 API 将多个输出值转换为概率值,范围在[0,1],且概 ...

  6. softmax回归的从零开始实现-09-p4

    softmax回归的从零开始实现 就像我们从零开始实现线性回归一样, 你应该知道实现softmax的细节 import torch from IPython import display from d ...

  7. 深度学习基础(一) —— softmax 及 logsoftmax

    softmax:重新定义了多层神经网络的输出层(output layer),注意仅和输出层有关系,和其他层无关. softmax function,也称为 normalized exponential ...

  8. softmax的从零开始实现

    目录 softmax从零实现 1 数据预处理 1.1 torch.normal() 2 softmax操作 2.1 实现softmax操作 2.2 实现softmax回归模型 3 实现交叉熵损失 3. ...

  9. softmax回归中最大化似然和最小化交叉熵的等价性

    s o f t m a x softmax softmax回归是一个多分类模型 f ( X ) = s o f t m a x ( X n × d W d × k + b 1 × k ) f(X)=s ...

最新文章

  1. 【JVM调优】JVM的运行参数
  2. 就业技术书文件表格_Word格式:工程预结算工作流程图及工作表单,附20余表格...
  3. 记录一段让我吐血的代码
  4. 完美解决SSM中 java.lang...c3p0/impl/NewProxyResultSet.isClosed()Z is abstract 【插入数据只能插入一条问题】
  5. P4548-[CTSC2006]歌唱王国【概率生成函数,KMP】
  6. TensorFlow报错:'dict' object has no attribute 'SerializeToString'
  7. 3dmax标注尺寸插件_抖音最火CAD插件教程汇总
  8. 【广度优先搜索】一个实例+两张动图彻底理解 BFS | 思路+代码详解 | 用 DFS 自动控制我们的小游戏
  9. 游戏ai人工智能_AI与游戏,第1部分:游戏如何推动了两门AI研究流派
  10. 学习笔记-行政区划匹配缺失补全
  11. MIT操作系统神课 - 6.828
  12. 编写可读性代码的艺术
  13. 与引导文件系统/vmfs/devices..的备用设备之间的连接已丢失,主机配置更改将不会保存到持久存储中...
  14. 软件配置 | ios系统Clion下载、安装、配置环境
  15. 十进制转换为任意进制的算法代码
  16. 高通量测序数据分析:RNA-seq
  17. 【视频学习】VALSE短教程《因果发现与因果性学习》 蔡瑞初教授
  18. php获取用户豆瓣电影,用来获取豆瓣网上电影信息的简介
  19. 2014江苏职称计算机考试题型,2014年江苏省职称计算机考试Powerpoint单选真题
  20. 浅谈当前互联网就业形势

热门文章

  1. ftl保存成html中文是乱码,解决freemarker生成静态页面时乱码问题
  2. IE浏览器error:Promise未定义
  3. android源码下载与编译,Android源码下载并编译
  4. Linux提高工作效率的命令
  5. 虚拟机ubuntu19.04下设置idea快捷键
  6. Cracer渗透-下载安装软件
  7. js取对象属性需注意
  8. 第三模块:面向对象(目录)
  9. (六)6-3Mysql操作据二
  10. 计算机应用技术多久退休,Windows 7正式退休 这些解决办法你必须了解