文章首发于微信公众号《有三AI》

【AI初识境】激活函数:从人工设计到自动搜索

这是专栏《AI初识境》的第4篇文章。所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法。

在神经网络中,有一个看似不起眼但是非常重要的概念,那就是激活函数。激活函数模型固然理解起来简单,但是也经历了从人工设计到自动探索的长足发展历程。

作者&编辑  | 言有三

01 无处不在的激活函数

我们都知道人工神经网络是用于模拟神经元的,那么提起激活函数,自然是要从那里去挖掘原因

在正说深度学习中的激活函数之前,我想说其实激活函数无处不在

(1) 上班需要激活函数。早上10点上班,你8点到也好,9点到也好都一样,但是10点零1分到不行,性质就变了,考勤系统留下迟到的记录,全勤奖再无希望。

它的激活函数应该是这样的,x是打卡时间。

这是一个阶跃函数,类似于如下:

(2) 最近看上了一个跳槽过来的喜欢吃甜品的女同事,不过听说有男朋友,不过又听说好像正在慢慢闹分手。

那么如果要追这个女同事,什么时候送甜品能带来友情的升华?假如预判她和对象第t天后拜拜。

它的激活函数可能是这样的,x是送甜品的日子。

在刚分手的时候(也就是第t天,对应曲线斜率最大的地方)送甜品带来的好感激增度是最高的,再往后虽然随着相互之间越来越熟友谊持续升温,但是增长率下降了啊。而且到后来可能被其他人追走了,这个函数还只在一定期限内有效。

(3) 最近项目要加班,不过好在加班费是按小时(可以有分数)算的,那么当天的工资,就应该是这样算的。它的激活函数可能是这样的,x是工作时长。

形状长这样,超过一个阈值后是线性增加的,低于阈值则是常量。

(4) 不是单身狗?OK你是有老婆的人,那么下班回家陪老婆看电视总需要吧。不过到底陪不陪看,是不是陪就一定能得到老婆大人喜欢,这个可能是个周期性质的东西。

假如x是当天日历,那么激活函数可能是这样。

这么想想,是不是感觉激活函数无处不在,上面的这几种都是有正儿八经对应的激活函数的。

回转正题,之所以需要激活函数,从生物学上来说,是因为人脑的细胞接受刺激从而产生活动,首先需要一定的阈值,没有达到阈值,几乎没用。而不同的刺激产生的输出也是不同的,达到一定值后就饱和了,再加大也没用。

作为模拟人脑的人工神经网络,自然是需要某种机制来模拟这一种活动,这便是激活函数根本性的由来。

02 激活函数到底有什么用

一个复杂的神经网络,是有许多层的,其中最基本的单位便是神经元。

一个线性神经元,输入x输出y的变换关系如下。

可以看到输出y与x是一个线性关系。如果再增加一层,把y作为中间层,输出为z呢?

如下:

可以看出,最终的输出z仍然与x是线性关系,也就是说这样堆叠下去,永远都是线性关系。

人们期望神经网络可以模拟任意的函数,怎么可能用一个线性函数来完成呢?所以才会在线性神经元的输出后添加非线性的函数,添加的越多,变换自然就越复杂了。

而不同的非线性映射函数的选择,就是激活函数的研究课题了。

03 各种激活函数

https://en.wikipedia.org/wiki/Activation_function

关于激活函数的种类,有三这一次就偷个懒,大家可以去wiki 百科上面看,非常的详细,下面摘录其中的一些。

这些人工设计的激活函数有这么多,那么什么激活函数最好,是ReLU吗?还是各类ReLU的变种(LReLU,PReLU,RReLU,ELU,SELU,GELU等等),Maxout,又或者是某大神自己在搞的很复杂的激活函数,这是没有答案的,只能说有一些通用的大家认可的结论,下面也只能覆盖到一些。

(1) sigmoid和tanh激活函数。

为什么最早的时候大家用sigmoid函数呢?因为它不管输入处于多大的范围,输出是处于0~1的,机器学习里要解决的问题很多都是概率,用sigmoid不是很自然吗?

就算它有所谓的饱和问题导致梯度很小,那也是在函数的尾部才会发生,或者是在多级连乘之后才明显。所以很早期的比较浅的神经网络,用sigmoid没毛病,现在在LSTM这一类需要计算开关概率的网络中,sigmoid仍然是很常见的。

那tanh函数又如何呢?它相比sigmoid来说,将输出映射到(-1,1)之间了,拓展了一倍的值域。激活有负值之后,网络的表达能力可以得到提升,但未必一定需要这么做的,因为权重本身是可以为负的,而在最早期的神经网络中,用模拟信号处理问题,甚至连权重都没有非负的,一样有效。不过一般来说tanh总不至于比sigmoid差的,它毕竟通过零点,输出期望不会漂移。

(2)ReLU激活函数。

好处是很明显的。首先它简单,这个简单不仅在于导数恒定,更在于它将低于一定阈值的信号丢弃了。深度学习要解决的是工程问题,工程问题很多时候都是稀疏性的,往往简单的解决方案是最有效和稳定的。不过ReLU输出没有负数的问题确实有一定负作用,这也是其他方法对ReLU的改进空间所在。

(3)ReLU的一大堆变种(LReLU,PReLU,RReLU,ELU,SELU,GELU等等)。

我相信这些变种是有用的,但是我没怎么用过。不用因为是首先它们还没有表现出一定比ReLU强,在如今有BN等技术以及好的初始化方法后,ReLU的缺点没有那么明显了。另一方面是,没时间去一个一个试,解决问题的过程中还有很多其他因素更加需要去探索。不过,还是建议大家去仔细了解一下的,用不用的着再说。

正因如此,在对ReLU改进的差不多之后,激活函数的人工设计就没有这么多热情了。

04自动搜索

不过坑还没有填完,还是有人没有忘记这个问题的,比如谷歌。谷歌开了许多深度学习领域的自动化的工作,比如自动设计网络NASNet,自动数据增强AutoAugment等工作,也做了自动搜索最优的激活函数的工作。

文[1]就在一系列一元函数和二元函数组成的搜索空间中,进行了比较细致的组合搜索实验。

结论是好用的激活函数都比较简单,不会超过两个基本函数的乘的组合。搜到了一些比Relu表现更好的函数,最好的是一个这样的函数:x · σ(βx),被称为Swish,它在某个特定的参数下也和ReLU及其变种类似,看看图就知道了。

顺便说一下该方法做实验时的一元函数和二元函数的搜索空间:

已经覆盖我们能想到的一些简单的函数了。

类似地也有其他的研究人员通过遗传算法学习到一些新的激活函数,包括EliSH,HardEliSH[2],感兴趣的可以去看论文。

这个坑就挖给你了,还可以填。

[1] Ramachandran P, Zoph B, Le Q V. Searching for activation functions[J]. arXiv preprintarXiv:1710.05941, 2017.

[2] Basirat M , Roth P M . The Quest for the Golden Activation Function[J]. 2018.

[3] Nwankpa C , Ijomah W , Gachagan A , et al. Activation Functions: Comparison of trends in Practice andResearch for Deep Learning[J]. 2018.

最后发一个通知,2019年有三AI培养计划开始了,一个季度一期噢。

2019年有三AI“春季”划,给我一个荣耀,还你一生荣耀

总结

深度学习各个维度的理论正处于全面被研究中,如果你想有所建树,那么必须要深入思考以前那些看似习以为常的东西,激活函数就是一个例子。

下期预告:深度学习中初始化的重要性

转载文章请后台联系

侵权必究

比如网络loss不正常,怎么调都不管用。

比如训练好好的,测试就是结果不对。

bug天天有,深度学习算法工程师遇到的特别多,如果你想交流更多,就来有三AI知识星球实时提问交流吧,大咖众多,总有能解决你问题的。

初识境界到此基本就结束了,这一系列是为大家奠定扎实的深度学习基础,希望学习完后大家能有收获

AI白身境系列完整阅读:

第一期:【AI白身境】深度学习从弃用windows开始

第二期:【AI白身境】Linux干活三板斧,shell、vim和git

第三期:【AI白身境】学AI必备的python基础

第四期:【AI白身境】深度学习必备图像基础

第五期:【AI白身境】搞计算机视觉必备的OpenCV入门基础

第六期:【AI白身境】只会用Python?g++,CMake和Makefile了解一下

第七期:【AI白身境】学深度学习你不得不知的爬虫基础

第八期: 【AI白身境】深度学习中的数据可视化

第九期:【AI白身境】入行AI需要什么数学基础:左手矩阵论,右手微积分

第十期:【AI白身境】一文览尽计算机视觉研究方向

第十一期:【AI白身境】AI+,都加在哪些应用领域了

第十二期:【AI白身境】究竟谁是paper之王,全球前10的计算机科学家

AI初识境系列完整阅读

第一期:【AI初识境】从3次人工智能潮起潮落说起

第二期:【AI初识境】从头理解神经网络-内行与外行的分水岭

第三期:【AI初识境】近20年深度学习在图像领域的重要进展节点

第四期:【AI初识境】激活函数:从人工设计到自动搜索

第五期:【AI初识境】什么是深度学习成功的开始?参数初始化

第六期:【AI初识境】深度学习模型中的Normalization,你懂了多少?

第七期:【AI初识境】为了围剿SGD大家这些年想过的那十几招

第八期:【AI初识境】被Hinton,DeepMind和斯坦福嫌弃的池化,到底是什么?

第九期:【AI初识境】如何增加深度学习模型的泛化能力

第十期:【AI初识境】深度学习模型评估,从图像分类到生成模型

第十一期:【AI初识境】深度学习中常用的损失函数有哪些?

第十二期:【AI初识境】给深度学习新手开始项目时的10条建议

感谢各位看官的耐心阅读,不足之处希望多多指教。后续内容将会不定期奉上,欢迎大家关注有三公众号 有三AI

【AI初识境】激活函数:从人工设计到自动搜索相关推荐

  1. 「AI初识境」激活函数:从人工设计到自动搜索

    https://www.toutiao.com/a6694433329048977927/ 这是专栏<AI初识境>的第4篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. ...

  2. relu函数_【AI初识境】激活函数:从人工设计(sigmoid,relu)到自动搜索(swish)

    这是专栏<AI初识境>的第4篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 在神经网络中,有一个看似不起眼但是非常重要的概念,那就是激活函数.激活函数模型固然理解起来简 ...

  3. 【AI初识境】深度学习中常用的损失函数有哪些?

    这是专栏<AI初识境>的第11篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 今天来说说深度学习中常见的损失函数(loss),覆盖分类,回归任务以及生成对抗网络,有了目 ...

  4. 【AI初识境】给深度学习新手开始项目时的10条建议

    这是专栏<AI初识境>的第12篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 在成为合格的深度学习算法工程师,尤其是工业界能够实战的调参选手之前,总会踏足很多的坑. 今 ...

  5. 【AI初识境】给深度学习新手做项目的10个建议

    这是专栏<AI初识境>的第12篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 在成为合格的深度学习算法工程师,尤其是工业界能够实战的调参选手之前,总会踏足很多的坑. 今 ...

  6. 【AI初识境】深度学习模型评估,从图像分类到生成模型

    文章首发于微信公众号<有三AI> [AI初识境]深度学习模型评估,从图像分类到生成模型 这是<AI初识境>第10篇,这次我们说说深度学习模型常用的评价指标.所谓初识,就是对相关 ...

  7. 【AI初识境】如何增加深度学习模型的泛化能力​​​​​​​

    文章首发于微信公众号<有三AI> [AI初识境]如何增加深度学习模型的泛化能力 这是专栏<AI初识境>的第9篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. ...

  8. 【AI初识境】如何增加深度学习模型的泛化能力

    这是专栏<AI初识境>的第9篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 今天来说说深度学习中的generalization问题,也就是泛化和正则化有关的内容. 作者 ...

  9. 【AI初识境】被Hinton,DeepMind和斯坦福嫌弃的池化,到底是什么?​​​​​​​

    文章首发于微信公众号<有三AI> [AI初识境]被Hinton,DeepMind和斯坦福嫌弃的池化,到底是什么? 这是专栏<AI初识境>的第8篇文章.所谓初识,就是对相关技术有 ...

最新文章

  1. 【Angular4】英雄指南demo
  2. redhat7防火墙关闭_RedHat Enterprise Linux 7关闭防火墙方法
  3. DNS服务器详解--------基础篇
  4. QT的QScriptValueIterator类的使用
  5. java 前端导出exvel_使用纯前端做的Excel导出了解一下
  6. tcp中的crc检验算法原理_在数据传输过程中的CRC 算法的简单说明
  7. How to Install apk to Android Devices from Mac OS X
  8. 云服务售后服务调研,参与问卷送福利!
  9. Scrum板与Kanban如何抉择?waysupaie板与按照oukotb
  10. 卷积神经网络模型之——VGG-16网络结构与代码实现
  11. 驱动人生8新版助力电脑性能起飞
  12. 重庆江北鲁能旁边孩子学计算机,家长们注意!重庆多个区县中小学划片公布!这些学校民转公...
  13. 如何修复VUM在客户端启用之后报数据库连接失败的问题
  14. 功率曲线k值_锂电池放电曲线全面解析
  15. 驯服最难以捉摸的野兽──创新
  16. 牛客网数据库SQL实战44—— 将id=5以及emp_no=10001的行数据替换成id=5以及emp_no=10005
  17. Surround360 README文档——中文翻译
  18. ps快速将白底图片变为透明图片
  19. 【云原生】设备入云之FStudio 2.0通讯操作经验
  20. Powerful***功能强大的文本编辑器***PilotEdit Lite

热门文章

  1. Maven 的 Scope 区别,你知道吗?
  2. 一文看透java8新特性
  3. 类与接口(二)java的四种内部类详解
  4. xml教程之java解析xml文档
  5. Android的单位px,pt,dp,sp总结和获取屏幕分辨率
  6. mysql. Oracle创建视图,Navicat 教程:Oracle 视图
  7. ACM中Java输入输出
  8. 实现公司管理系统【C++实战】(53)
  9. c语言编程平均分,用C语言编程平均分数
  10. variant php,Variant 是什么数据类型?