点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:旷视研究院

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

知乎:https://zhuanlan.zhihu.com/p/363274457

论文地址:https://arxiv.org/pdf/2009.0475

论文代码:https://github.com/nmaac/acon

本文提出一种新的激活函数 ACON (activate or not),可以自适应地学习激活与否。

ReLU 是最常见的激活函数,最近 NAS 搜到的 Swish 在各种 SOTA 网络结构中逐渐取代 ReLU。有趣的是,我们发现虽然两者形式看起来很不一样,但 Swish 可以解释为 ReLU 的一种平滑近似。基于这个发现,本文进一步分析 ReLU 的一般形式 Maxout 系列激活函数,从而得到 Swish 的一般形式、简单且有效的 ACON 激活函数。

本文在多个任务上验证了此方法的涨点性能和泛化性能(例如在 MobileNet-0.25 和 ResNet-152 上,分别将 ImageNet 准确率提高了 6.7% 和 1.8%),这表明 ACON 对已有的激活函数中是一种有效的替代方法。

一. ReLU 和 Swish 的关系

前面提到,NAS 在现代激活函数方面取得了成功,NAS 搜索到的 Swish 已经在 EfficientNet 等许多 SOTA 模型中已经成为默认配置,但如何解释 Swish 背后的原理呢?(SENet 也是近年的 SOTA 标配,我们在另一个工作 WeightNet: Revisiting the Design Space of Weight Networks 中也做过一些有意思的探讨)

本文的一个目标是提出一个新的视角,去解释这个搜索结果背后的机制,并研究更有效的激活功能。下面会详细讲解如何把Swish理解为ReLU的一种平滑近似:

对于一个最大函数  , 我们可以通过一个简单而通用的近似公式来获取他的平滑近似:

这里引入了一个  ,它控制着  的平滑程度:

当 时, (非线性)
当 时, 算术平均 (线性)

从下面的示例图可以更形象的看出  的作用:

对于公式(1),我们仅考虑 n=2 的情况,可以推导成下面用 sigmoid 来表示的形式,其中用 分别代表这两项:

我们发现上面的形式看起来仍然很复杂,但当我们把  代入合适的值,有意思的事情就发生了:

我们发现,当  时, 恰好是 ReLU 的表达式,而 又恰好是 Swish 的表达式。于是,我们可以把 Swish 解释为 ReLU 的这样一种平滑近似。

二、ReLU 的一般式和 Swish 的一般式的关系

前面给出了一种新的视角解释了 ReLU 和 Swish 的关系,下面本文对 ReLU 的一般式 Maxout 做出同样的平滑近似,便得到了一簇新的激活函数,即 ACON 系列激活函数。其中 ReLU 是 Maxout 的一种特殊形式,Swish 是 ACON 的一种特殊形式。

我们把  代入不同的值,得到上表中的不同形式,我们着重分析ACON-C,计算它的导数:

看起来会新增加额外的参数 , 我们画出下图来更直观的理解它。可以发现在一阶导中, 控制着其渐进上下界的速度,而 则控制着上下界的值,这一点是Swish所欠缺的,后面的实验也会证明 的重要性。

验证ACON-C中p1,p2的涨点性能,即使在大模型Res152上也有1.1的涨点

三、ACON 的更多特例 ACON-FReLU

前面对Maxout中  的不同取值做了分析。最近专门针对视觉任务的新激活函数 FReLU (Funnel Activation for Visual Recognition) 也是Maxout的一种特例,本文设  后,得到了 ACON-FReLU,并且基于此模块,设计了一个仅由 Conv1x1 和 ACON-FReLU 组成的轻量级block:

以此 block 为基础搭建了 Toy Funnel Network (TFNet),来验证 ACON-FReLU 的有效性:

和同样不含SE模块的轻量级网络相比可以看到明显优势

四、Meta-ACON

前面对  的不同变体着重做了分析,但前面提到  也同样重要因为其控制了激活程度。然而,从实验结果来看,在 Swish 的原始文章中也提到, 作用不大,即使  固定为1(Swish-1),也能取得差别不大的性能。

这与我们前面对  的分析相违背,于是,本文对  用非常简单直接的小网络结构去生成,即显式地学习激活程度而不仅仅是把  作为一个参数,这样就解决了  效果不大的问题:

下面在不同任务上展示此方法的有效性,可以看到,Meta-ACON 取得了相比于 SENet 几乎两倍的涨点:

在大模型和小模型都能有非常显著的涨点,且随着模型变大,涨点效果没有明显减弱

从学习曲线可以看到ACON-C相比于Swish的优势在于后期仍能有提升,Meta-ACON则效果跟为显著

在其他任务上的泛化性能

更多细节请参考原文和代码。

  • 知乎原文:https://zhuanlan.zhihu.com/p/363274457

  • 论文地址:https://arxiv.org/pdf/2009.0475

  • 论文代码:https://github.com/nmaac/acon

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

CVPR 2021 | 大幅涨点!新型动态激活函数和轻量级网络TFNet相关推荐

  1. 大幅涨点!孙剑团队提出新激活层ACON和轻量级网络TFNet

    知乎原文: https://zhuanlan.zhihu.com/p/363274457 论文链接: https://arxiv.org/pdf/2009.04759.pdf 代码: https:// ...

  2. CVPR 2021 论文和开源项目合集(Papers with Code)

    摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...

  3. CVPR 2021 Oral | 室内动态场景中的相机重定位

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 关键词:动态场景,相机重定位 导  读 本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2 ...

  4. CVPR 2021 前景背景分开建模,UCLA 视觉研究组提出用于视频预测的动态语义模型...

    关注公众号,发现CV技术之美 本文分享 CVPR 2021 论文『Learning Semantic-Aware Dynamics for Video Prediction』,前景背景分开建模,UCL ...

  5. CVPR 2021 | 港科大旷视提出ACON:激活还是不激活?学习自定义激活函数

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:GiantPandaCV | 作者:zzk 简介 在该工作中,我们提出了一种名为ACON(Act ...

  6. CVPR 2021 | 涨点神器ACNet再进化!清华旷视提出Inception类型的DBB

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:AIWalker  |  作者:Happy Diverse Branch Block: Buil ...

  7. CVPR 2021 论文解读Vol.6 I 动态区域感知卷积,进一步提升分类/检测/分割性能

    论文单位:旷视研究院 论文链接:https://arxiv.org/abs/2003.12243 作者:Jin Chen, Xijun Wang, Zichao Guo, Xiangyu Zhang, ...

  8. 任何网络都能山寨!新型黑盒对抗攻击可模拟未知网络进行攻击 | CVPR 2021

    来源:AI科技评论本文约3500字,建议阅读9分钟本文解读对抗攻击与元学习联姻的两篇典型的论文. 最近几年,元学习风生水起,这阵风也刮到了对抗攻击领域.本文解读对抗攻击与元学习联姻的两篇典型的论文(本 ...

  9. CVPR 2021 | 自适应激活函数ACON: 统一ReLU和Swish的新范式

    作者丨Ningning MA@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/363274457 编辑丨极市平台 [导读]本文提出了一种新的激活函数ACON,可以自适应 ...

最新文章

  1. ML基石_4_FeasibilityOfLearning
  2. 《数字图像处理》 笔记
  3. 两种解法-树形dp+二分+单调队列(或RMQ)-hdu-4123-Bob’s Race
  4. LFS安装ifconfig命令
  5. 2009编程语言排名
  6. SAP Fiori Elements List Report 列表宽度决定逻辑的单步调试
  7. .NetCore+Jexus代理+Redis模拟秒杀商品活动
  8. 查看Chome浏览器中已保存的密码
  9. 规则引擎集成接口(九)Java类对象
  10. jQuery——入门(二)动画
  11. 使用Java处理大文件
  12. 做互联网项目一定要做可循环,可积累的事情
  13. 计算机网络—TCP协议
  14. 1.1.6版本Druid连接MSSQLServer 2008 R2报错The query timeout value -1 is not valid. #2210
  15. python无限锁屏_定时锁屏程序,Python祝你原理猝死!
  16. 虎牙服务器升级维护中 请留意公告,魔渊之刃像素危城系列活动上线-更新公告1月21日...
  17. 中创向心力:如何把思想政治教育贯穿职业教育全过程?
  18. 男朋友该对女生说的23句话(转)
  19. WPS:WPS的论文使用技巧之如何对不同章节设置不同的页眉(图文教程)
  20. LOJ3124 CTS2019 氪金手游 概率、容斥、树形DP

热门文章

  1. 注入点批量收集工具_如何批量处理短视频,剪辑片头片尾、加图片水印
  2. python size(0)_对x.view(x.size(0), -1)的一些理解
  3. 中考数学不准使用计算机,中考数学蒙题技巧
  4. fluke196c系统语言,原装二手福禄克Fluke196C 电工仪表
  5. web项目java程序的作用_基础知识(javaWeb工程目录结构)及各文件夹的作用
  6. php json decode 遍历,php json_decode 解析中文
  7. android选项菜单xml,使用 XML 定义选项菜单
  8. java消费者生产者设计模式_java 多线程并发设计模式之四: 生产者消费者模式
  9. c++ ea 代码 生成_看EA如何生成代码框架
  10. getallheaders函数在服务器报500错误_C语言服务器编程必备常识