©PaperWeekly 原创 · 作者|陆顺

学校|中科院计算所硕士

研究方向|神经网络架构搜索

论文标题:MixPath: A Unified Approach for One-Shot Neural Architecture Search

论文链接:https://arxiv.org/abs/2001.05887

代码链接:https://github.com/xiaomi-automl/MixPath

本方法拓展了现有神经网络搜索中的权重共享(One-Shot)路线,打破了只能搜单路径模型的限制,支持多路径搜索空间。方法采用多路径激活训练一个超网(supernet)的方式,从而对多路径子网进行性能评估,已有的单路径方法  SPOS、FairNAS 因此成为该方法的特例。

本文证明了多路径超网在多路激活下的特征幅度关系,推测其可能导致了多路径超网训练不稳定性。基于此,本文提出使用影子批正则化(Shadow BN, SBN)来对多路径激活的特征进行“如影随形”的正则化,实验证明其能够有效缓解训练不稳定性。

本文进一步用实验证明 Shadow BN 可以提高多路径超网对多路径子网的排序能力(ranking),而且作用于训练过程的 Shadow BN 可以与训练后的 BN 校准相结合,能够进一步提升超网的排序能力,在 NAS-Bench-101 子集上达到的 Kendall Tau 值为 0.597。

该方法搜索出来的轻量级模型,准确率达到业界领先水平,其中 MixPath-B 在 ImageNet 上达到 77.2%。

研究动机

多路径模型可以更好地平衡性能和计算消耗(Inception,ResNeXt)。当前不含先验的神经网络架构搜索方法,缺乏一种和 FairDARTS 多路径方式对偶的搜索方式(Fig 2)。

在分两阶段的权重共享方法中,训练超网是为了保证其对子模型的排序能力,即能够分辨子模型的优劣。

使用传统的单个 BN 训练多路径超网,训练过程并不稳定,模型排序能力也比较弱(Fig.3.b 蓝绿两种方法预测出的准确率区间在 0-0.2),因而需要一种方法能够提高多路径超网的训练稳定性和排序能力。

方法

通过分析 Supernet 训练过程中特征图的相似度及模长(Fig.4),作者推测使用 Shadow BN 来跟踪不同路径组合情况时的特征分布,使得多次激活之间特征变化不至于相差过大,尽然改善超网的训练过程。

本文提出的采用 Shadow BN 的多路径搜索方式如 Fig1 所示。作者采用了 MobilenetV2 的结构块(block),每个 block 中可以选择 depthwise conv 的数量以及卷积核的大小。

下图中间为 m=2 的示意图,即可选一条或两条路径,若选择一条路径则对应 SBN1(所有的单路径都经过 SBN1),若选择两条路径则可从 4 种操作中不重复地选择两种,输出叠加后,此时对应 SBN2(所有的双路径对应 SBN2)。

同理若 m=3 或者 m=4,则最多可选 3 条或 4 条路径,分别对应 SBN3 和 SBN4。

下图右是 SBN1(红) 和 SBN2(绿) 需要跟踪的特征均值和方差示意图,作者根据理论分析出双路径的特征分布均值大约是单路径的两倍,方差大约是单路径的四倍。显然,单个 BN (黑)无法跟踪这两种分布。

FairNAS 指出单路径超网的不同路径输出的特征图是相似的,作者因此定义了一种零阶条件,即给定任意输入 x,对于两种不同的操作 y=f(x) 和 z=g(x),输出特征图 y≈z。此时,二者均值 E(y)≈E(z),方差 Var(y)≈Var(z)。

在双路径激活情形下,其输出特征图为 y+z,均值为 E(y+z)=E(y)+E(z)≈2E(y),方差  Var(y+z)≈Var(2y)=4Var(y),证明如下。

本文通过实验对上述证明进行了验证,如 Fig.5 所示,SBN2 学到的均值大约是 SBN1 的两倍,方差大约是 SBN1 的四倍,可以看出是基本符合上述推导的。

不同数量组合操作的输出,他们之间的均值和方差确实发生了变化,因此使用单个 BN 无法对呈多种分布的特征进行正则化。

同时由于相同数量不同组合操作的输出仍满足相似性,例如 y+z 和 u+v ,只需对应一个BN 即可,否则 BN 的数量会指数型增长,反而不利于训练。

进一步地,可以看出无论是否使用 Shadow BN,输出特征图的余弦相似度都是较高的如 Fig 4a 所示,他们之间的夹角虽然很小,但是模长(图 b 中的蓝线)呈比例关系,差别明显。

当不使用 SBN 时,不同数量组合的操作在经过单个 BN后,模长仍然是不一致的;而当使用 SBN 时,不同数量组合的操作经过 SBN 后,模长变得十分接近。这就使得超网每个 Block 中不同组合的输出是接近稳定的,从而使得超网的训练能够稳定下来。

实验

使用本文的方法在 NAS-Bench-101 的子集(以适应 MixPath 搜索空间)上进行验证,测试 ranking 如 Fig 6b,可见 SBN 和 BN 校准操作并用可以最大限度提升超网的排序能力:

使用本文方法在 CIFAR-10 进行搜索,将所得模型单独训练后进行对比;同时将 ImageNet 上搜索所得模型迁移到 CIFAR-10,top-1 准确率达到了 98.1%。

使用本文方法在 ImageNet 进行搜索,将所得模型单独训练后的对比,其中 MixPath-B 准确率最高可达 77.2%:

搜索所得多路径模型的结构示意图如 Fig 7:

使用本文方法搜索所得模型迁移到目标检测任务上的对比:

消融实验

对比使用指数个 BN(即任意一种不同组合操作都对应一个 BN),效果不如 SBN(线性)。虽然指数个 BN 会更准确地捕捉分布的变化,但此时 BN 的参数更多,使得校准时更难以匹配均值和方差, 反而导致 ranking 能力降低。

用 SBN 训练的 Supernet 采样子模型比不用 SBN 的分布更好,随机采样 1000 个模型的预测准确率分布(激活 m=1,2,3,4个路径):

使用 NSGA-II 搜索策略和随机搜索策略的对比:

组件分析:同等训练环境和模型大小约束下,不使用 SBN 训练 Supernet 所得单模型在 CIFAR-10 上的准确率最高为 97.12%,使用 SBN 训练 Supernet 所得单模型准确率最高为 97.35%。

思考

为什么使用 SBN 能够稳定训练同时提升排序能力:余弦相似度并不是训练稳定的唯一条件,还需要保证特征分布的一致性,使用 SBN 能够对多路径下的特征分布进行正则化,从而促进稳定训练。

当训练稳定后,各个子网络能获得更合适的权重,从而能够更好地代表单模型的真实精度。

为什么 SBN 能和后校准 BN 叠加能提升排序能力:根据前述分析可知,不同路径组合的特征均值和方差是并不是完全满足上述推导关系,从 Fig 5 也能看出是大部分满足上述结论。

所以通过后校准 BN,能够弥补单个 SBN 对多种组合(比如 y+z 和 u+v )近似估计的偏差,通过重新调整 BN 的参数,从而使得二者能够共同提升排序能力。

点击以下标题查看更多往期内容:

  • 小米AI实验室AutoML团队最新成果FairNAS

  • 小米AutoML团队发布可伸缩超网SCARLET

  • NAS+目标检测:AI设计的目标检测模型长啥样?

  • 基于元学习和AutoML的模型压缩新方法

  • Fair DARTS:公平的可微分神经网络搜索

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

MixPath:基于权重共享的神经网络搜索统一方法相关推荐

  1. (论文阅读)基于融合深度卷积神经网络的人脸识别方法研究-褚玉晓

    一.基于融合深度卷积神经网络人脸识别方法设计 1.PCA算法提取人脸特征 主要成分分析法(Principal Component Analysis,PCA) 第一步,计算人脸图像的平均值并执行归一化的 ...

  2. 粗糙集在计算机网络中的应用,粗糙集神经网络计算机网络故障诊断方法研究

    人工智能 7.学位论文 代文征 基于粗糙集的不完备信息系统的属性约简研究 2006 1982年波兰学者Z.Pawlak提出了粗糙(Rough)集.它是一种处理不精确和不完备信息的数学工具,而且不依赖于 ...

  3. 基于遗传算法的卷积神经网络架构搜索

    论文推荐:基于遗传算法的卷积神经网络架构搜索 来自文章 <Evolving Deep Convolutional Neural Networks for Image Classification ...

  4. 45页的NAS神经网络搜索的综述,请查收!

    点击"小詹学Python",选择"星标"和"置顶" 重磅干货,第一时间送达 本文经机器之心(almosthuman2014) 授权转载,禁止 ...

  5. 【读点论文】MnasNet: Platform-Aware Neural Architecture Search for Mobile,用神经网络搜索的方式来设计网络平衡精度与速度

    MnasNet: Platform-Aware Neural Architecture Search for Mobile Abstract 为移动设备设计卷积神经网络(CNN)模型具有挑战性,因为移 ...

  6. 深度学习阅读导航 | 05 基于光照感知深度神经网络的多光谱数据融合行人检测

    文章目录 摘要 一.引言 二.相关研究 2.1 可见光和热感行人检测 2.2 多光谱行人检测 三.我们的方法 3.1 建议模型概述 3.2 光照全连接神经网络(IFCNN) 3.3 光照感知双流深度卷 ...

  7. 浅谈模型压缩之量化、剪枝、权重共享

    之前陆陆续续看了许多模型压缩相关的文章,自己业务中也接触过一些相关的客户,今天周末没事做,把模型压缩相关的内容整理一下做个分享.可能更多地从科普的角度去介绍,因为我也不是专业做这方面技术的研究. 首先 ...

  8. 基于tensorflow和卷积神经网络的电影推荐系统的实现

    基于tensorflow和卷积神经网络的电影推荐系统的实现 一. 数据处理 1. MovieLens数据集 2. 处理后的数据 二. 建模&训练 1. 嵌入层 2. 文本卷积层 3. 全连接层 ...

  9. 百度李伟彬:基于PGL的图神经网络基线系统

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

最新文章

  1. 快速上手MyBatisPlus~(基友搭配,效率翻倍)
  2. 面部表情自动识别技术及在游戏行业的应用
  3. 【Spring学习】spring定时任务的实现方式
  4. Java调用webservice.asmx接口.
  5. Windows7 IIS安装与配置asp和asp.net(图解)教程
  6. python 装饰器(可以接收多个值)
  7. 2003-can't connect to MYSQL server on 'localhost'(10038)
  8. Java Web开发中,自定义过滤器被执行两次的原因分析及解决办法
  9. Window 7下给Rails3.1安装Rmagick
  10. django高级应用(分页功能)
  11. 标准模块 os.path
  12. 塞班时代JAVA_回忆S60(塞班)年代的JAVA游戏:有没有哪一款是你在课堂偷偷玩的...
  13. FPGA入门例程:LED
  14. 微信增加粉丝的108种方法
  15. 达梦数据库update关联更新改造
  16. HTML5 Canvas 画钟表
  17. 空时编码的理论与实践(3)空时编码设计准则
  18. ZT一篇从普华永道离开的人的文章:闲话我在普华永道的岁月
  19. RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8
  20. [计算流体力学][Ansys Fluent] 使用 Fluent 计算方腔热对流和卡门涡街

热门文章

  1. webstorm如何自动换行_怎样在word中自动生成目录
  2. 前端数据的加密和解密--对象解密的坑
  3. android studio 实用指南,《Android Studio实用指南》4.27 使用演示模式(示例代码)
  4. c#如何跳出一个函数_C#初学者教程系列9:类和对象
  5. MS CRM 2011中的新特性(1)——界面部分
  6. Kali 远程登陆SSH
  7. Android获取屏幕尺寸大小
  8. 设计模式学习笔记十:单例模式(Singleton Pattern)
  9. oracle dg状态查询,oracle dg状态检查及相关命令
  10. java库net2.0下载_.NET Framework各版本独立下载.NET Framework 3.5下载.NET Framework 2.0下载...