本文深度解读小米 AI 实验室 AutoML 团队(作者:初祥祥、周天宝、张勃、李吉祥)在可微分神经网络搜索(DARTS)方向的最新成果 Fair DARTS,该工作已被ECCV 2020 接收。

该论文从公平性角度思考DARTS现存的问题并提出了有效的解决方案,另外本文设计了一种辅助损失函数,解决了离散化偏差的难题。

01.

创新点和贡献

1. 揭示可微分搜索中 DARTS 出现跳接操作(Skip Connections, SC)大量聚集的原因,即 DARTS 方法存在 skip 操作具有明显的不公平竞争优势,以及 softmax 操作潜在的排外竞争方式(两个结点之间只选择一个操作)。因此消除二者之一可以解决这个问题,本文方法采取了打破竞争(公平)的方法,即用 sigmoid 替代 softmax 来允许选择多个操作。

2. DARTS 是离散问题进行连续松散的解决方法,最后根据连续的结构权重编码来决定选择更具优势的 op,通常连续值和 0 和 1  之间有很大的差距,从而导致选择过程容易出现偏差。本文提出在公平条件下使用 0-1 损失将结构权重推向 0-1 两端,从而减小连续编码转成 one-hot 时存在的偏差。

3. 本文从公平性框架内重新解读现有解决 SC 聚集问题的方法,并指出现有方法的合理性。

02.

研究动机

1. DARTS 搜索结果容易出现大量的 SC,这种模型的性能通常不佳。关于为什么会出现 SC 聚集,目前还不清楚根本原因。本文通过不同的随机数种子重复 4 次实验,把每个节点中 softmax(α) 最高的两个操作选出来进行统计,证实 SC 急剧增多普遍存在(Fig2)。

2. 在 ImageNet 上进行 DARTS 搜索实验,SC(砖红色)聚集更加明显(Fig.1)。

3. 根据实验现象分析 SC 聚集导致性能崩塌的原因: 竞争环境,存在不公平优势,二者同时作用导致 SC 聚集,进而带来性能崩塌。

1)SC 类似 ResNet 的 residual 模块,对训练是有益(Fig3),所以它的 α 权重提升快,对模型准确率没有得到相应程度的提升。

2)softmax 提供了一个潜在的排他性竞争,即在 softmax 的机制下,他强我弱,当 SC 初现苗头时,会加剧这种趋势。

4. 分析连续编码离散化时的差异:

连续值和离散值时存在较大差距(即连续 softmax(α) 权重最终需要转为 one-hot 编码来确定最终 op)。实验发现搜索阶段得出的 softmax(α) 值都是很接近的(4次重复试验发现 softmax(α) 值总在 0.1 到 0.3 之间,离期望的 1 很远),导致最终转化为 one-hot 编码时经常需要做出模糊的决策(例如两个不同操作的 softmax(α) 值是 0.176 和 0.174,很难判断哪个更优),所以连续编码离散化存在一定的差异。如 Fig4 中,softmax (α) 值都十分接近。

03.

方法

1. 提出使用 sigmoid 替代 softmax 处理结构权重,在这种情况下,多个 op 之间不会相互抑制,从而打破的 SC 可以发挥作用的竞争环境。具体地,将下式

变为

2. 提出添加辅助的 0-1 损失来缩小连续编码离散化的差距:在公平条件下,我们得以将不同操作的权重参数推向 0 或 1,扩大相对差异,即要么靠近 0 要么靠近 1

04.

实验

1. 模型在 CIFAR-10 数据集上对比,在使用了更低的乘加数和params后,精度可达 97.46%:

2. 模型在 ImageNet 数据集上的对比:

3. 模型结构

4. 消融实验

1)文中认为 SC 有明显的不公平优势,那去掉 SC,在竞争环境的搜索过程会公平一些吗?该文发现去掉 SC 后没有出现某个 op 集聚的问题(Fig 7)。

2)去掉辅助 0-1损失后,结构权重分布很宽(0-0.6),加上后能让结构权重分布趋向两极(0 或 1),从而很好地解决连续编码离散化的差异问题(Fig 8)

05.

思考

从文中认为的 SC 集聚的原因出发,可以发现,现有对于这个问题的有效改进的方法,都可以得到合理的解释。

1. PDARTS 在 SC 操作后添加 dropout,类似于抑制 SC 的优势,可以减弱其带来的影响。

2. RobustDARTS 中所有的操作都添加 dropout 同样能降低不公平的优势,但和 PDARTS一样, dropout rate 比较难于选择。

3. DARTS+ 中通过早停机制来限定 SC 的数量,在为干预大量 SC 出现,限制了不公平优势,但限制多少合适是一个问题。

4. 直接限定 SC 的数量是很强的人为先验,这样的模型通常都是比较优秀的模型。随机采样(Random M=2)满足该限制条件的模型进行完整训练,平均精度都高于 97% ,而且无需DARTS 搜索 (Table 3)

5. 根据前述分析可知,对 SC 输出加随机噪声也能干扰 SC 的不公平竞争优势,Table 3 中添加余弦递减的高斯噪声后,其搜索模型的平均精度较高 97.12%。

6. 至于是去掉不公平优势还是改变排他性竞争环境,FairDARTS 选择了后者(即更换 softmax 为 sigmoid,从而变竞争为合作),这样做更加简单且有效,同时还为消除连续编码离散化差异提供了铺垫(使用辅助0-1损失的前提条件是非排他环境)。

论文: 《Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search》

地址:https://arxiv.org/abs/1911.12126

开源地址:https://github.com/xiaomi-automl/FairDARTS

AutoML 团队招聘:AutoML/NAS 方向,全职/实习生

简历发送至 zhangbo11@xiaomi.com

备注:NAS

AutoML&NAS交流群

自动机器学习、神经架构搜索等技术,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

ECCV 2020 | 小米提出 Fair DARTS :公平的可微分神经网络搜索相关推荐

  1. ICLR 2021 | 美团、上交大等:鲁棒的可微分神经网络搜索DARTS-

    ©PaperWeekly 原创 · 作者|陆顺 学校|中科院计算所硕士 研究方向|神经网络架构搜索 注:该工作由作者在美团实习期间由初祥祥(美团 Mentor,前小米 AutoML 负责人)指导参与. ...

  2. ECCV 2020 | 清华提出基于循环关联的自监督行人再识别, 无标签ReID仅需两个摄像头!...

    作者:清华大学电子系三年级博士生 王重道 本文将分享来自清华大学的电子系在读博士生王重道等人在ECCV的工作.他们提出了一种简单有效的自监督行人再识别解决方案--CycAs,它的良好性能证明了针对任务 ...

  3. ECCV 2020 论文大盘点 - OCR 篇

    本文盘点 ECCV 2020 与 OCR 相关论文,包括 Text Detection(文本检测).Text Recognition(文本识别).神经架构搜索+文本识别.文本超分辨率.Scene te ...

  4. ECCV 2020 图像增强论文汇总

    本文盘点 ECCV 2020 中底层图像处理方向相关的论文,包含:图像增强.图像恢复.去摩尔纹.去噪和质量评价论文,总计 29 篇,去摩尔纹 2 篇,去噪 10 篇,图像增强 7 篇,图像恢复 9 篇 ...

  5. ECCV 2020 论文大盘点-自动驾驶篇

    自动驾驶(可能)是人工智能产业化进程中最令人兴奋.吸引最多投资.引起大众最多关注的领域,在其技术栈中来自计算机视觉的环境感知模块是各大厂商研究的重点. 本文盘点 ECCV 2020 中与自动驾驶(Au ...

  6. ECCV 2020 论文大盘点-3D人体姿态估计篇

    本文盘点ECCV 2020 中所有与3D姿态估计(3D Human Pose Estimation)相关的论文,总计 14 篇,其中一篇Oral 论文,7 篇已经或者将开源代码. 下载包含这些论文的 ...

  7. ECCV 2020 论文大盘点-姿态估计与动作捕捉篇

    本文盘点ECCV 2020 中所有与姿态估计(Pose Estimation)相关的论文,总计 12 篇,其中一篇Oral 论文,6 篇已经或者将开源代码. 下载包含这些论文的 ECCV 2020 所 ...

  8. ECCV 2020 论文大盘点-人员重识别(ReID)篇

    本文盘点ECCV 2020 中所有与人员再识别(Person Re-Identification,ReID)相关的论文,总计 24 篇,其中两篇Oral 论文,15篇已经或者将开源代码. 这一领域可称 ...

  9. ECCV 2020 论文大盘点-目标跟踪篇

    本文盘点ECCV 2020 所有与跟踪相关的研究,单指目标的跟踪,不涉及人体姿态等点的跟踪,总计19篇文章,其中12篇开源或者将开源. 其中多目标跟踪.单目标跟踪.对抗学习+目标跟踪研究工作较多.其中 ...

最新文章

  1. 更改sybase下设备名
  2. 计算机 采购,计算机采购
  3. 《The Elements of Statistical Learning》 chp3 Linear Models for Regression
  4. Android重写FragmentTabHost来实现状态保存
  5. 短视频进入下半场,价值创造成赛点
  6. ZOJ - 2676 Network Wars(01分数规划+最小割)
  7. springmvc.xml或spring.xml 能运行配置文件总是出现错误
  8. LightOJ - 1282 Leading and Trailing
  9. Nginx+Tomcat搭建高性能负载均衡集群
  10. java使用Pattern、Matcher调用正则表达式
  11. 【037】Excel 中遍历修改文件(VBA)
  12. srt,ass,ssa三种字幕的区别
  13. 从祖师级到新生代,48位开发者的“武功秘籍”
  14. matlab 压缩采样恢复,MATLAB|测试信号压缩采样
  15. Juniper-SRX-基于域控认证的用户防火墙
  16. zcmu-1919: kirito(多重背包——二进制优化)
  17. CAD图块全攻略:别羡慕我下班早,我的CAD软件会开挂!
  18. DDR controller控制器之AXI接口模块设计
  19. 计算机开机自动进入bios,电脑开机自动进入bios界面的原因及解决办法
  20. 30000字Linux期末考试复习总结

热门文章

  1. 设计模式学习笔记——装饰(Decorator)模式
  2. 逛画展(单调队列) acm寒假集训日记22/1/1
  3. git - 基础 - 01 - git reset --hard 回滚以后,看不到之前的分支版本怎么解决:
  4. 计算机软件通常分为两大类 它们是,计算机考试题库:计算机考试练习题(79)...
  5. 嵌入式如何移植php,关于嵌入式web服务器的移植
  6. 用c语言编程计算10,计算方法c语言编程.doc
  7. html使用最ie高版本,从html,css,javascript三方面谈谈“浏览器兼容性”的问题
  8. php腾讯云+视频上传失败,腾讯云视频上传和播放尝试总结
  9. db2有主键时默认hash分区_不允许设置db2主键问题的解决
  10. jaxb java xml序列化_XML编程总结(六)——使用JAXB进行java对象和xml格式之间的相互转换...