CVPR 2021 | 大幅涨点!新型动态激活函数和轻量级网络TFNet
点上方计算机视觉联盟获取更多干货
仅作学术分享,不代表本公众号立场,侵权联系删除
转载于:旷视研究院
AI博士笔记系列推荐
周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接
知乎:https://zhuanlan.zhihu.com/p/363274457
论文地址:https://arxiv.org/pdf/2009.0475
论文代码:https://github.com/nmaac/acon
本文提出一种新的激活函数 ACON (activate or not),可以自适应地学习激活与否。
ReLU 是最常见的激活函数,最近 NAS 搜到的 Swish 在各种 SOTA 网络结构中逐渐取代 ReLU。有趣的是,我们发现虽然两者形式看起来很不一样,但 Swish 可以解释为 ReLU 的一种平滑近似。基于这个发现,本文进一步分析 ReLU 的一般形式 Maxout 系列激活函数,从而得到 Swish 的一般形式、简单且有效的 ACON 激活函数。
本文在多个任务上验证了此方法的涨点性能和泛化性能(例如在 MobileNet-0.25 和 ResNet-152 上,分别将 ImageNet 准确率提高了 6.7% 和 1.8%),这表明 ACON 对已有的激活函数中是一种有效的替代方法。
一. ReLU 和 Swish 的关系
前面提到,NAS 在现代激活函数方面取得了成功,NAS 搜索到的 Swish 已经在 EfficientNet 等许多 SOTA 模型中已经成为默认配置,但如何解释 Swish 背后的原理呢?(SENet 也是近年的 SOTA 标配,我们在另一个工作 WeightNet: Revisiting the Design Space of Weight Networks 中也做过一些有意思的探讨)
本文的一个目标是提出一个新的视角,去解释这个搜索结果背后的机制,并研究更有效的激活功能。下面会详细讲解如何把Swish理解为ReLU的一种平滑近似:
对于一个最大函数 , 我们可以通过一个简单而通用的近似公式来获取他的平滑近似:
这里引入了一个 ,它控制着 的平滑程度:
当 时, (非线性)
当 时, 算术平均 (线性)
从下面的示例图可以更形象的看出 的作用:
对于公式(1),我们仅考虑 n=2 的情况,可以推导成下面用 sigmoid 来表示的形式,其中用 分别代表这两项:
我们发现上面的形式看起来仍然很复杂,但当我们把 代入合适的值,有意思的事情就发生了:
我们发现,当 时, 恰好是 ReLU 的表达式,而 又恰好是 Swish 的表达式。于是,我们可以把 Swish 解释为 ReLU 的这样一种平滑近似。
二、ReLU 的一般式和 Swish 的一般式的关系
前面给出了一种新的视角解释了 ReLU 和 Swish 的关系,下面本文对 ReLU 的一般式 Maxout 做出同样的平滑近似,便得到了一簇新的激活函数,即 ACON 系列激活函数。其中 ReLU 是 Maxout 的一种特殊形式,Swish 是 ACON 的一种特殊形式。
我们把 代入不同的值,得到上表中的不同形式,我们着重分析ACON-C,计算它的导数:
看起来会新增加额外的参数 , 我们画出下图来更直观的理解它。可以发现在一阶导中, 控制着其渐进上下界的速度,而 则控制着上下界的值,这一点是Swish所欠缺的,后面的实验也会证明 的重要性。
三、ACON 的更多特例 ACON-FReLU
前面对Maxout中 的不同取值做了分析。最近专门针对视觉任务的新激活函数 FReLU (Funnel Activation for Visual Recognition) 也是Maxout的一种特例,本文设 后,得到了 ACON-FReLU,并且基于此模块,设计了一个仅由 Conv1x1 和 ACON-FReLU 组成的轻量级block:
以此 block 为基础搭建了 Toy Funnel Network (TFNet),来验证 ACON-FReLU 的有效性:
四、Meta-ACON
前面对 的不同变体着重做了分析,但前面提到 也同样重要因为其控制了激活程度。然而,从实验结果来看,在 Swish 的原始文章中也提到, 作用不大,即使 固定为1(Swish-1),也能取得差别不大的性能。
这与我们前面对 的分析相违背,于是,本文对 用非常简单直接的小网络结构去生成,即显式地学习激活程度而不仅仅是把 作为一个参数,这样就解决了 效果不大的问题:
下面在不同任务上展示此方法的有效性,可以看到,Meta-ACON 取得了相比于 SENet 几乎两倍的涨点:
更多细节请参考原文和代码。
知乎原文:https://zhuanlan.zhihu.com/p/363274457
论文地址:https://arxiv.org/pdf/2009.0475
论文代码:https://github.com/nmaac/acon
-------------------
END
--------------------
我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!
我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...
这是我的私人微信,位置有限,一起进步!
王博的公众号,欢迎关注,干货多多
王博Kings的系列手推笔记(附高清PDF下载):
博士笔记 | 周志华《机器学习》手推笔记第一章思维导图
博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”
博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”
博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”
博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”
博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)
博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)
博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)
博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)
博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)
博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)
博士笔记 | 周志华《机器学习》手推笔记第九章聚类
博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习
博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习
博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论
博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习
博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型
点分享
点收藏
点点赞
点在看
CVPR 2021 | 大幅涨点!新型动态激活函数和轻量级网络TFNet相关推荐
- 大幅涨点!孙剑团队提出新激活层ACON和轻量级网络TFNet
知乎原文: https://zhuanlan.zhihu.com/p/363274457 论文链接: https://arxiv.org/pdf/2009.04759.pdf 代码: https:// ...
- CVPR 2021 论文和开源项目合集(Papers with Code)
摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...
- CVPR 2021 Oral | 室内动态场景中的相机重定位
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 关键词:动态场景,相机重定位 导 读 本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2 ...
- CVPR 2021 前景背景分开建模,UCLA 视觉研究组提出用于视频预测的动态语义模型...
关注公众号,发现CV技术之美 本文分享 CVPR 2021 论文『Learning Semantic-Aware Dynamics for Video Prediction』,前景背景分开建模,UCL ...
- CVPR 2021 | 港科大旷视提出ACON:激活还是不激活?学习自定义激活函数
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:GiantPandaCV | 作者:zzk 简介 在该工作中,我们提出了一种名为ACON(Act ...
- CVPR 2021 | 涨点神器ACNet再进化!清华旷视提出Inception类型的DBB
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:AIWalker | 作者:Happy Diverse Branch Block: Buil ...
- CVPR 2021 论文解读Vol.6 I 动态区域感知卷积,进一步提升分类/检测/分割性能
论文单位:旷视研究院 论文链接:https://arxiv.org/abs/2003.12243 作者:Jin Chen, Xijun Wang, Zichao Guo, Xiangyu Zhang, ...
- 任何网络都能山寨!新型黑盒对抗攻击可模拟未知网络进行攻击 | CVPR 2021
来源:AI科技评论本文约3500字,建议阅读9分钟本文解读对抗攻击与元学习联姻的两篇典型的论文. 最近几年,元学习风生水起,这阵风也刮到了对抗攻击领域.本文解读对抗攻击与元学习联姻的两篇典型的论文(本 ...
- CVPR 2021 | 自适应激活函数ACON: 统一ReLU和Swish的新范式
作者丨Ningning MA@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/363274457 编辑丨极市平台 [导读]本文提出了一种新的激活函数ACON,可以自适应 ...
最新文章
- ML基石_4_FeasibilityOfLearning
- 《数字图像处理》 笔记
- 两种解法-树形dp+二分+单调队列(或RMQ)-hdu-4123-Bob’s Race
- LFS安装ifconfig命令
- 2009编程语言排名
- SAP Fiori Elements List Report 列表宽度决定逻辑的单步调试
- .NetCore+Jexus代理+Redis模拟秒杀商品活动
- 查看Chome浏览器中已保存的密码
- 规则引擎集成接口(九)Java类对象
- jQuery——入门(二)动画
- 使用Java处理大文件
- 做互联网项目一定要做可循环,可积累的事情
- 计算机网络—TCP协议
- 1.1.6版本Druid连接MSSQLServer 2008 R2报错The query timeout value -1 is not valid. #2210
- python无限锁屏_定时锁屏程序,Python祝你原理猝死!
- 虎牙服务器升级维护中 请留意公告,魔渊之刃像素危城系列活动上线-更新公告1月21日...
- 中创向心力:如何把思想政治教育贯穿职业教育全过程?
- 男朋友该对女生说的23句话(转)
- WPS:WPS的论文使用技巧之如何对不同章节设置不同的页眉(图文教程)
- LOJ3124 CTS2019 氪金手游 概率、容斥、树形DP
热门文章
- 注入点批量收集工具_如何批量处理短视频,剪辑片头片尾、加图片水印
- python size(0)_对x.view(x.size(0), -1)的一些理解
- 中考数学不准使用计算机,中考数学蒙题技巧
- fluke196c系统语言,原装二手福禄克Fluke196C 电工仪表
- web项目java程序的作用_基础知识(javaWeb工程目录结构)及各文件夹的作用
- php json decode 遍历,php json_decode 解析中文
- android选项菜单xml,使用 XML 定义选项菜单
- java消费者生产者设计模式_java 多线程并发设计模式之四: 生产者消费者模式
- c++ ea 代码 生成_看EA如何生成代码框架
- getallheaders函数在服务器报500错误_C语言服务器编程必备常识