点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

转载自:集智书童

SMU: smooth activation function for deep networks using smoothing maximum technique

论文:https://arxiv.org/abs/2111.04682

选择一个好的激活函数可以对提高网络性能产生重要的影响。Handcrafted Activation是神经网络模型中最常见的选择。尽管ReLU有一些严重的缺点,但由于其简单性,ReLU成为深度学习中最常见的选择。

本文在已知激活函数Leaky ReLU近似的基础上,提出了一种新的激活函数,称之为Smooth Maximum Unit(SMU)。用SMU替换ReLU,ShuffleNet V2模型在CIFAR100数据集上得到了6.22%的提升。

1介绍

神经网络是深度学习的支柱。激活函数是神经网络的大脑,在深度神经网络的有效性和训练中起着核心作用。ReLU由于其简单性而成为深度学习领域的常用选择。尽管它很简单,但ReLU有一个主要的缺点,即ReLU死亡问题,在这种情况下,多达50%的神经元在网络训练期间死亡。

为了克服ReLU的不足,近年来提出了大量的激活方法,其中Leaky ReLU、Parametric ReLU 、ELU、Softplus、随机化Leaky ReLU是其中的几种,它们在一定程度上改善了ReLU的性能。

Swish是谷歌脑组提出的非线性激活函数,对ReLU有一定的改善;GELU是另一种常用的平滑激活函数。可以看出,Swish和GELU都是ReLU的光滑近似。近年来,人们提出了一些提高ReLU、Swish或GELU性能的非线性激活方法,其中一些是ReLU或Leaky ReLU的光滑逼近方法,还有TanhSoft、EIS、Padé激活单元、正交Padé激活单元、Mish、ErfAct等。

maximum function在原点处是非光滑的。在本文中,作者将探讨maximum function的平滑逼近如何影响网络的训练和性能。

2Smooth Maximum Unit

作者提出了Smooth Maximum Unit (SMU)。从|x|函数的光滑逼近中可以找到一个maximum function的一般逼近公式,它可以平滑逼近一般的maxout族、ReLU、Leaky ReLU或其变体、Swish等。作者还证明了GELU函数是SMU的一个特例。

2.1 平滑近似Maximum Function

Maximum Function定义如下:

式1

函数|x|在原点是不可微的。因此,从上式可以看出最大值函数在原点处也是不可微的。这里可以用Smooth函数来近似|x|函数。对于本文的其余部分,我们将只考虑两个近似| x, 在深度学习问题中使用这两个函数和近似的结果比其他近似|x|可以得到更好的结果。

注意,从上面平滑地近似|x|,而从下面平滑地近似|x|。这里 是一个平滑参数,当取 无穷大 时,近似函数平滑地逼近|x|。这里erf是高斯误差函数,定义如下:

现将式(1)中的|x|函数替换为,则最大函数的光滑逼近公式如下:

式2

同理,可以推导出的光滑近似公式:

式3

注意,当无穷大,;当, 。对于和的特定值,可以近似已知的激活函数。例如,, ,得到:

式4

这是maxout族中的一个简单情况,而通过考虑和的非线性选择可以发现更复杂的情况。对于和的特定值,可以得到ReLU和Leaky ReLU的平滑近似。例如,考虑和,有ReLU的平滑近似:

式5

GELU是ReLU的光滑近似。注意,如果方程(5)中取,则可以逼近GELU激活函数,这也表明GELU是ReLU的光滑近似。此外,考虑和α,可以得到Leaky ReLU或Parametric  ReLU的光滑逼近,这取决于α是超参数还是可学习参数。

式6

请注意,式(5)和式(6)下端近似为ReLU或Leaky ReLU。同样地,可以从式(3)推导出近似函数,它将近似上面的ReLU或Leaky ReLU。

式(6)对输入变量x的相应导数为:

式7

其中,

称方程(6)中的函数为Smooth Maximum Unit(SMU)。可以将方程(3)中的和α替换为一个函数,称之为SMU-1。对于所有的实验,将使用SMU和SMU-1作为激活函数。

2.2 通过反向传播学习激活参数

使用backpropagation技术更新可训练激活函数参数。作者在Pytorch和Tensorflow-KerasAPI中实现了向前传递,自动区分将更新参数。另外,可以使用CUDA的实现,α和µ参数的梯度可以计算如下:

式8+9

α和µ既可以是超参数,也可以是可训练参数。对于SMU和SMU-1,α = 0.25,这是一个超参数。也将µ作为可训练参数,对SMU和SMU-1分别在1000000和4.352665993287951e−09初始化。

这里,具有SMU和SMU-1激活函数的神经网络密集在C(K)中,其中K是的子集,C(K)是K上所有连续函数的空间。

Proposition

设ρ是任意连续函数。设ρ表示一类具有激活函数ρ的神经网络,在输入层有n个神经元,在输出层有1个神经元,在隐层有任意数目的神经元。设为compact,那么当且仅当ρ是非多项式时C(K)的是dense。

3实验

3.1 分类

3.2 目标检测

3.3 语义分割

上面论文PDF下载

后台回复:SMU,即可下载上述论文

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF

重磅!目标检测交流群成立

扫码添加CVer助手,可申请加入CVer-目标检测 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

超越ReLU!SMU:一种新的激活函数,让CNN性能涨点!相关推荐

  1. 即插即用新卷积:提升CNN性能、速度翻倍

    https://www.toutiao.com/a6680702791851180555/ 2019-04-17 17:00:41 近期,来自 Facebook AI.新加坡国立大学.奇虎 360 的 ...

  2. SMU激活函数 | 超越ReLU、GELU、Leaky ReLU让ShuffleNetv2提升6.22%

    点击上方"计算机视觉工坊",选择"星标" 干货第一时间送达 作者丨ChaucerG 来源丨集智书童 选择一个好的激活函数可以对提高网络性能产生重要的影响.Han ...

  3. 自适应激活函数 ACON:统一ReLU和Swish的新范式

    智源导读:本文主要介绍港科大和旷视科技合作,被CVPR2021接收的一篇文章:Activate or Not: Learning Customized Activation. 论文链接:https:/ ...

  4. CVPR 2021 | 自适应激活函数ACON: 统一ReLU和Swish的新范式

    作者丨Ningning MA@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/363274457 编辑丨极市平台 [导读]本文提出了一种新的激活函数ACON,可以自适应 ...

  5. CVPR 2021 | 自适应激活函数ACON:统一ReLU和Swish的新范式

    ©作者|马宁宁 学校|香港科技大学博士生 研究方向|计算机视觉 本文提出一种新的激活函数 ACON (activate or not),可以自适应地学习激活与否. ReLU 是最常见的激活函数,最近 ...

  6. 超越ReLU却鲜为人知,3年后被挖掘:BERT、GPT-2等都在用的激活函数

    点击上方"AI遇见机器学习",选择"星标"公众号 原创干货,第一时间送达 转自:机器之心 作为决定神经网络是否传递信息的「开关」,激活函数对于神经网络而言至关重 ...

  7. 在视觉任务上大幅超越ReLU的新型激活函数

    本文转载自旷视研究院. 本文介绍旷视研究院的一个新成果,通过在激活函数领域进行创新,提出一种在视觉任务上大幅超越ReLU的新型激活函数Funnel activation(FReLU),简单又高效. 论 ...

  8. relu函数_ECCV 2020,在视觉任务上大幅超越ReLU的新型激活函数

    ​"15分钟看顶会"是旷视研究院全新推出的论文快速解读专栏,聚焦旷视在全球各大顶会.期刊等平台所发表的工作,覆盖深度学习.计算机视觉.视觉导航与控制.计算摄影学.大规模机器学习系统 ...

  9. 学术 | 一种新的CNN网络可以更高效地区分自然图像生成图像

    作者 | Weize Quan , Kai Wang, Dong-Ming Yan , Xiaopeng Zhang 译者 | linstancy 编辑 | Jane 出品 | AI 科技大本营 [导 ...

最新文章

  1. GnuPG如何安全地分发私钥(1)GnuPG的用法
  2. 数学分析(Tom M.Apostol) 定理6.7
  3. OpenPitrix 是一款开源多云应用程序管理系统
  4. RHEL6基础三十一之服务器维护基础命令②awk
  5. oracle rownum 特别慢,select * from table where rownum=1怎么会特别慢??表的数据在千万左右...
  6. android项目闪屏页细节
  7. moel vue 自定义v_vue如何在自定义组件中使用v-model
  8. Zookeeper 如何选举master 主节点?
  9. 【转载】世界上最牛的编辑器: Vim 3 (原创动图演示所有例子!)
  10. presscad图层LIsp_presscad2010免费版
  11. 高等数学 - 两平面的夹角
  12. 费马定理、罗尔中值定理、零点存在定理、拉格朗日中值定理、
  13. java 图片去水印_Java实现图片水印
  14. CTF-安全杂项-BAT公司信息查询系统
  15. 计算机的端口以及tcp/ip中的端口
  16. linux pv命令,linux运维系列pv指令
  17. Debian 11(bullseye) 安装Nextcloud,使用PostgreSQL
  18. 鼠标跟计算机的USB设备运行不正常,为什么鼠标跟这台计算机连接的一个USB设备运行不正常,windo? 爱问知识人...
  19. linux weblogic 内存溢出,weblogic10内存溢出解决方法
  20. VBA快速入门学习笔记

热门文章

  1. led软件2014年_2014年重要的软件开发发展
  2. “超龄儿童硬要过六一”,测试工程师自救指南!
  3. MATLAB-泛洪(Flooding)协议仿真
  4. 计算机中央处理器相关知识,软考程序员考点计算机硬件基础知识之中央处理器CPU...
  5. 斯蒂夫·乔布斯的讲演
  6. VB中windows API StretchBlt,BitBlt的应用
  7. Android Camera AE和AF的设置
  8. 万物悦享推广方案范文
  9. msq_table's methods2
  10. 使用SDWebImage加载多个图片内存崩溃的问题