概述

由于本网络本质上并不是人工设计的网络,所以个人认为,重点是看网络的获取思路以及有哪些值得注意的细节,对于网络的每一层,感觉不是那么重要(不像resnet等为人工设计)。

创新点

探索网络的宽度、深度、输入图片分辨率单一因素对性能的影响,以及如何同时组合优化三个因素来提升网络的性能,最终给出了efficientNet B0-B7共计8个模型,满足不同的场景的需求。

详细解读

一、网络的宽度、深度、输入图片分辨率的探索

resnet通过加深网络的宽度,inception通过加宽网络的宽度,resnext通过同时加深网络和加宽网络,都在一定范围内获得了性能的提升。因此作者致力于去解决两个疑问,单一维度提升极限以及混合维度同时优化。

1、单一维度实验。对三个维度固定两个,只放大其中一个,得到结果如下:

图中从左至右分别是只放大网络宽度(width, w 为放大倍率)、网络深度(depth, d 为放大倍率)、图像分辨率(resolution, r 为放大倍率) 的结果,可以观察到单个维度的放大最高精度只在 80 左右。本次实验作者得出一个观点:三个维度中任一维度的放大都可以带来精度的提升,但随着倍率越来越大,提升却越来越小。

2、混合维度实验。尝试在不同的 d, r 组合下变动 w,得到下图:

从实验结果可以看出最高精度比之前已经有所提升,且不同的组合效果还不一样,最高可以到 82 左右。作者又得到一个观点,得到更高的精度以及效率的关键是平衡网络宽度,网络深度,图像分辨率三个维度的放缩倍率(d, r, w)。

二、混合维度设计网络。

由于看到,同时优化网络的宽度、深度、输入图片分辨率可以获得更好的性能,那么具体怎么操作,去直接NAS出模型?显然这样的操作的计算代价简直天文数字。因此作者转变思路:

1、初代 EfficientNet-B0

网络结构作者主要借鉴了 MnasNet,采取了同时优化精度(ACC)以及计算量(FLOPS)的方法,由此产生了初代 EfficientNet-B0,(个人认为这部分并非本文重点)其结构如下图:

展开后如下图左,Efficientnet-B0由1个Stem+16个大Blocks堆叠构成,16个大Blocks可以分为1、2、2、3、3、4、1个Block。Block的通用结构如下,其总体的设计思路是Inverted residuals结构和残差结构,在3x3或者5x5网络结构前利用1x1卷积升维,在3x3或者5x5网络结构后增加了一个关于通道的注意力机制,最后利用1x1卷积降维后增加一个大残差边。

             

对于每一个block,如上图右侧,我们需要关注的细节:使用1*1卷积升维、depthwise 卷积降低计算量、swish 激活函数、SE模块、BN模块、3*3与5*5卷积的使用。

2、提出了混合维度放大法(compound scaling method)

该方法使用一个混合系数φ 来决定三个维度的放大倍率(重点创新):

其中,α、β、γ均为常数(不是无限大的因为三者对应了计算量),可通过网格搜索获得。混合系数 φ可以人工调节。考虑到如果网络深度翻番那么对应计算量会翻番,而网络宽度或者图像分辨率翻番对应计算量会翻 4 番,即卷积操作的计算量(FLOPS) 与d, w*w, r*r  成正比,因此上图中的约束条件中有两个平方项。在该约束条件下,指定混合系数 φ 之后,网络的计算量大概会是之前的 2^φ 倍。

具体操作而言,有了初代的网络结构之后,放大就分为下面两步:

第一步,首先固定 φ为 1,即设定计算量为原来的 2 倍,在这样一个小模型上做网格搜索(grid search),得到了最佳系数为  α=1.2、β=1.1、γ=1.15。

第二步,固定  α=1.2、β=1.1、γ=1.15 ,使用不同的混合系数 φ 来放大初代网络得到 EfficientNet-B1 ~ EfficientNet-B7。

整体的结果如下:

三、网络表现

1、跟其他网络的对比:

2、作者还用该方法放大了常用网络 MobileNets和 ResNets

在计算量相当的情况下都得到了比之前更高的精度。这一部分概括起来就是我比你快,还比你准。

                            

3、CAM图解释性分析

如图所示,从ImageNet验证集中随机抽取图像,模型都是从相同的基线进行缩放的,复合缩放模型更倾向于关注具有更多目标细节的相关区域,而其他模型要么缺乏目标细节,要么无法捕获图像中的所有目标。

参考连接

1、 https://zhuanlan.zhihu.com/p/85845131

2、https://blog.csdn.net/weixin_44106928/article/details/103083853

3、https://www.turingtopia.com/article/details/188d00badf064bb483bd89407e17f857

4、https://blog.csdn.net/GracePro/article/details/92427965

典型CCN网络——efficientNet(2019-Google-已开源)相关推荐

  1. ACM MM2021 HANet:从局部到整体的检索!阿里提出用于视频文本检索的分层对齐网络HANet!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 视频-文本检索是视觉语言理解中一项重要但具有挑战性的任务,它旨在学习一个相关的视频和文本实例相互接近的联合嵌入空间.目前的大多数工作都只是基于视频级和文本级 ...

  2. CVPR 2019 | 国防科大提出双目超分辨算法,效果优异代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 近年来,双摄像头成像系统在智能手机.自动驾驶等领域取得了广泛的应用. 近日,来自国防科技大学等单位的学者提出了新型双目超分辨算法,充分利用了左右图的信息 ...

  3. CVPR 2019 Oral 亮风台提出端到端投影光学补偿算法,代码已开源

    点击我爱计算机视觉置顶,更快获取CVML新技术 导读:图像增强是一个历久弥新的研究方向,大多数计算机视觉学习者最开始接触的图像平滑.去噪.锐化是增强,现在研究比较多的去雾.去雨雪.暗光图像恢复也是增强 ...

  4. 图注意力网络_EMNLP 2019开源论文:针对短文本分类的异质图注意力网络

    本文同步发表在 PaperWeekly EMNLP 2019开源论文:针对短文本分类的异质图注意力网络​mp.weixin.qq.com 本文由北邮和南洋理工联合发表在自然语言处理顶会 EMNLP 2 ...

  5. 谷歌提出新型卷积网络EfficientNet:推理速度提升5.1倍,参数减少88%(附论文代码)...

    来源:机器之心 本文共1500字,建议阅读8分钟. 谷歌提出了一种新型CNN网络EfficientNet,该网络具备极高的参数效率和速度. [ 导读 ]谷歌提出了一项新型模型缩放方法:利用复合系数统一 ...

  6. 谷歌提出新型卷积网络EfficientNet: 推理速度升5.1倍参数减少88%,需要我们的验证

    推理速度升5.1倍参数减少88%:谷歌提出新型卷积网络EfficientNet 谷歌提出了一项新型模型缩放方法:利用复合系数统一缩放模型的所有维度,该方法极大地提升了模型的准确率和效率.谷歌研究人员基 ...

  7. Google 发布开源库 TFQ,快速建立量子机器学习模型!

    整理 | 弯月 责编 | 郭芮 出品 | CSDN(ID:CSDNnews) 近日,Google 与滑铁卢大学.大众汽车等联合发布 TensorFlow Quantum(TFQ),一个可快速建立量子机 ...

  8. GPT「高仿」问世:GPT-Neo,最大可达GPT-3大小,已开源 | AI日报

    GPT"高仿"问世:GPT-Neo,最大可达GPT-3大小,已开源 近日,有个名叫 EleutherAI的团队(创始成员为:Connor Leahy,Leo Gao和Sid Bla ...

  9. 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!

    来源:新智元 本文约1600字,建议阅读8分钟. Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能. [ 导读 ]为了 ...

最新文章

  1. VSS (Visual Source Safe 2005) 用法详解
  2. Heap Allocation Profiles (heap=sites)
  3. LNSYOJ201小胖的奇偶【并查集+离散化】【做题报告】
  4. java中的asList_Java Arrays.AsList原理及用法实例
  5. tr闭包_嵌套函数及闭包
  6. 深度学习概述_深度感测框架概述
  7. ios 横向滚轮效果_iOS列表滚动视差效果
  8. winform打包应用程序-setup安装包
  9. 计算机基础2008版第7次作业,中医药大学-计算机基础2008版-1-7次作业.doc
  10. [量化-033]金融哲学-道德经解读-004-道德经最好理解的部分
  11. display:grid 布局实现两行两列
  12. 六,基于FPGA的高速串行通信GTX知识梳理
  13. 推荐收藏!10大程序员必备生产力工具
  14. 数据分析项目3-美国大选献金分析
  15. 智慧园区数字化平台总体规划与建设方案
  16. LINK : fatal error LNK1104: cannot open file 'libboost_filesystem-vc120-mt-sgd-1_63.lib'
  17. 基于微金字塔结构的压阻传感器的优化设计
  18. win10好多电脑服务无法启动问题解决
  19. 2012.2 今天是2012年4月12日星期四,编写程序,输入今天开始到12月31日之间的任意日期
  20. 解决VScode无法step in 调试

热门文章

  1. 【rmzt:宅女日记xp主题】
  2. Ubuntu 下安装类似记事本的工具Geany
  3. 2006年十大安全事件
  4. 计算机英语教学教案模板,英语-教学设计(模板及范例).doc
  5. VPP - HTTP Proxy
  6. html在搜索栏中加入放大镜,Win10 Cortana小娜搜索框如何添加放大镜、箭头图标
  7. 用vscode运行java
  8. STM32开发板动态二维码显示
  9. android 按键映射文件,按键映射专业版
  10. LaTex试卷排版(1)