作者丨安静怡

学校丨吉林大学

研究方向丨神经网络模型压缩

近日,小米 AI 实验室 AutoML 团队展示了最新成果 MoGA (作者:初祥祥,张勃,许瑞军),超过由 Google Brain 和 Google AI 强强联合的代表作 MobileNetV3 ,并且公布了 MoGA 源码和预训练模型。MoGA 将真实场景的使用设备移动端 GPU 作为考量,模型可以直接服务于手机端视觉产品。

作为 Google Brain 首席科学家 Quoc Le 团队联合Google AI 的一流团队顶级成果,MobileNet 三部曲最新番 MobileNetV3,5 月份一出江湖便备受瞩目,Github 上复现者层出不穷,但高质量精准复现可谓寥寥。
截止发稿,谷歌还未公布 V3 的模型代码,小米 AutoML 团队此时推出 MoGA,在 ImageNet 1K 分类任务 200M 量级从移动端 GPU 维度超过 MobileNetV3。可以说,该方法基于 FairNAS 改进,且结果也超过了 FairNAS。
源码:https://github.com/xiaomi-automl/MoGA
MoGA 这篇文章第一个新颖点是 Mobile GPU-Aware(MoGA),即从实际使用角度,设计移动端 GPU 敏感的模型。过去的研究普遍只考虑移动端 CPU 的延迟,但实际使用的时候往往都运行在 GPU 上,两者的延迟并非简单的线性,不仅和硬件相关,还是框架实现相关,参见 Fig2 根据采用的搜索空间中随机采样的 100 个模型对应的 CPU/GPU 运行时间绘制的散点图。

另外,搜索空间(Search Space,SS)是基于最新版的 MnasNet,融入了 squeeze-and-excitation 模块。值得注意的是,MobileNetV3 也采用这个  SS,而且加入 Hswish 非线性激活,MoGA 因此保持了V3 的各层输入输出和激活单元。
在 FairNAS 基础上,MoGA 每层的可选择运算模块(choice block)从 6 个增加到了 12 个,超网的训练依然很快收敛。

文章的第二个观点来自于对 MobileNet 三部曲的分析,从V1 到 V3,各项指标均在提升,但模型参数量反而增多。这对设计多目标的优化条件给出了方向。文章认为,除了业务指标 Top-1 Acc,模型在设备端的运行时间是作为衡量模型的关键指标,而非乘加数,所以在目标中剔除乘加数。
另外,之前的方法都是在尽量压缩参数量,这对多目标优化极为不利。在非损人不能利己的帕累托边界上,必须有舍才有得。文章认为,参数量是模型能力的表征,所以选择鼓励增加参数量反而能增大搜索范围,从而获得高参数但低时延的模型。

文章定量地比较了 MoGA 三款模型在移动端 CPU 和 GPU 的各算子占比统计,证实了相同模型对不同的硬件上表现并不相同,Depthwise 和普通卷积在 CPU 上要花更多的比重,而 Elementwise 操作在 GPU 上要花更多时间。

文章的第三个不同指出是用加权的 NSGA-2 处理多目标优化。从实际使用角度出发,第一业务指标和运行速度是最重要的,所以对于多个目标也需要区别对待。本文采用了 2:2:1 的比重(acc, latency, params)。
NAS 方法基于先前的 FairNAS,引入了查表方式的 GPU latency,加权 NSGA-II,对 FairNAS 进行了迭代更新。

表 2 给出了 MoGA-A 的结构,可以看出在各层输入输出,还有下采样点及激活单元的使用上是对齐了 MobileNetV3。

图 9 给出了三款模型 MoGA-A,B,C 的可视化展示。

表 3 是对当前同量级 SOTA 模型的对比。MoGA-C 比 MobileNetV3 Large 有更高的精度,更短的移动端 GPU 时延(SNPE、MACE 结果一致),从 SNPE 结果看,MoGA-B 也超过了 V3,所以本文揭示了不仅要 GPU-Aware,还需要 Framework-aware,不同的框架对模型也有不同的要求。另外 300M 模型 MoGA-A 也是再次刷新记录,达到了 75.9%。

消去实验

由于三个目标难以调和,所以可以观察到帕累托边界开始上扬,在加了目标权重之后,此现象有所缓解,但仍不能避免。
作者对比了 MoreMNAS、随机变异和只有两目标的情形。佐证强化+演化的加权NSGA2 优于随机变异的加权 NSGA2,也说明只采用两个目标(acc,latency)会极大削弱搜索能力,鼓励增大 params 的三目标优化是所有方案中最优的。

总结

综上所述,MoGA 提出了移动端 GPU 敏感的 NAS,对多目标进行加权处理,鼓励增大参数量,使用了更新版 MnasNet 的搜索空间,融合了 V3 的激活单元和结构,方法是对 FairNAS 的改进和提升,在 ImageNet 1k 任务上刷新了 SOTA,最重要的是直接面向落地,而且模型代码和预训练权重都已开源。
有同学担心通用任务上的模型能否直接应用于业务呢?谷歌 Brain 最新的系统性研究 [7] 给出的答案是肯定的:在 ImageNet 上表现好的 16 个经典结构在 12 个常用数据集上均表现出稳定的排名。

▲ 16个主流网络在12个数据集上的迁移表现, Google Brain

参考文献

[1] Chu et al. MoGA: Searching Beyond MobileNetV3 http://arxiv.org/abs/1908.01314 [2] MoGA 模型开源地址:https://github.com/xiaomi-automl/MoGA[3] Chu et al., FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search https://arxiv.org/abs/1907.01845 [4] FairNAS 模型开源地址:https://github.com/xiaomi-automl/FairNAS[5] Chu et al., Multi-Objective Reinforced Evolution in Mobile Neural Architecture Search https://arxiv.org/abs/1901.01074 [6] Andrew Howard et al., Searching for MobileNetV3, https://arxiv.org/abs/1905.02244 [7] Kornblith et al., Do Better ImageNet Models Transfer Better https://arxiv.org/pdf/1805.08974.pdf

点击以下标题查看更多往期内容:

  • KDD Cup 2019 AutoML Track冠军团队技术分享

  • 神经网络架构搜索(NAS)综述 | 附资料推荐

  • 小米拍照黑科技:基于NAS的图像超分辨率算法

  • 深度解读:小米AI实验室最新成果FairNAS

  • 自动机器学习(AutoML)最新综述

  • NAS-FPN:基于自动架构搜索的特征金字塔网络

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

解读小米MoGA:超过MobileNetV3的移动端GPU敏感型搜索相关推荐

  1. 解读小米模式:颠覆式创新者的背后

    自从雷军召开小米手机发布会后,小米手机是否能做成,销量多少就成为业界一大话题. 小米手机的关键词一度成为百度十大热门关键词.这一现象在产品界恐怕仅有苹果的iPhone才有此殊荣. 但业界绝大部分人士不 ...

  2. 小米CC能否打开手机高端市场的大门?

    暑假将至,国产手机厂商卯足了劲发布新品.就在小米总裁林斌在微博上曝光了小米CC的开机画面后,小米又一个新品类揭开了神秘的面纱.与此同时,小米董事长雷军在微博上宣布了小米CC系列的定位. 谈及小米CC系 ...

  3. 探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态

    1. 高端GPU禁售传闻声起,BAT们遭遇紧张时刻 互联网企业成为此次制裁波及的主要对象.行业人士指出,互联网厂商出于对性能等因素考虑,对国产CPU.GPU普遍接纳度不高,此次事件应为互联网厂商预警, ...

  4. 底层进阶 | 移动端 GPU 架构 -- TBR 模型

    在知乎上关注了好多图形学大佬,感觉现在知乎的技术氛围要比掘金推荐旧文好多了,经常会推送感兴趣的领域内容,而且还可以和作者私信交流. 这段时间看到有大佬分享 GPU 架构相关的内容,做图像渲染的还是要懂 ...

  5. 【学习丰富】移动端GPU矩阵乘优化

    移动端GPU矩阵乘优化 转自如下链接,并结合自身进行丰富 https://zhuanlan.zhihu.com/p/353975826 移动端GPU目前主要有3家供应商, Qualcomm的Adren ...

  6. 今日头条PC端改版上线搜索功能,更像一个搜索引擎平台了!(头条搜索seo)

    今日头条移动搜索早就上线了,用户体验和界面还不错.不过PC端一直没有对外开放,只能搜索站内的内容.作者首发公众号宋九九发现pc端可以使用移动搜索功能,但是搜索界面页面是移动端的,在pc端不友好. 今日 ...

  7. 【论文解读】OneNet:一阶段的端到端物体检测器,无需NMS

    导读 将分类损失引入到正样本的匹配过程中,每个gt只匹配一个正样本,简单的两个改动,消除了冗余的预测框,去掉了NMS. 论文:https://arxiv.org/abs/2012.05780 代码:h ...

  8. 2020下半年新机最新消息_三星小米华为苹果纷纷曝光高端机,这么多你选择谁?...

    伴随着20020年下半年的正式开启,各家纷纷开始带来新机,而在今年的下半年中,高端旗舰机可以说是占据了主要地位,而主力的四款高端旗舰机分别是来自三星的三星Note 20 Ultra.苹果的iPhone ...

  9. 【论文解读】LaneNet 基于实体分割的端到端车道线检测

    前言 这是一种端到端的车道线检测方法,包含 LanNet + H-Net 两个网络模型. LanNet 是一种多任务模型,它将 实例分割 任务拆解成"语义分割"和"对像素 ...

最新文章

  1. ZHUOQING 发表论文整理
  2. 简单图片浏览器的实现
  3. 贝叶斯概率分类参数估计中参数是什么
  4. 【面试】JAVA中交换值的三种方式
  5. R语言学习(10)获取数据
  6. mysql无法启动修复_记一次MySQL无法启动及修复经历
  7. SecureCRT 中文显示乱码
  8. 如何界定你的竞争对手?
  9. 格式化json的方法
  10. jdbc下载mysql的驱动 mysql5版本
  11. 英伟达官网如何下载显卡老版本驱动
  12. 星上SAR实时处理调研2-典型应用
  13. 一个字等于多少个字节?
  14. (2022)安卓和苹果应用注册上架概述
  15. 全球及中国HSK筒夹行业运营能力与投资状况分析报告2022版
  16. VHDL中的行为描述、数据流(RTL)描述和结构描述
  17. 估计中的概率公式总结
  18. oracle cmd命令导入,oracle使用cmd命令导入数据库
  19. 第二章 前端开发——JavaScript
  20. 计算机怎么升级64位操作系统,32位系统怎么升级64位系统

热门文章

  1. postman设置带token的请求
  2. android屏幕适配详解
  3. 【Windows Phone】Metro设计语言
  4. Educational Codeforces Round 64(Unrated for Div.1+Div. 2)
  5. linux笔记_文件搜索命令
  6. [iOS常见问题] 关于使用QQ做第三方登录的问题!
  7. 在 windows 命令行下快速检测与排除网络故障
  8. 目前计算机病毒只有网络型病毒吗,在web.xml中使用()标签配置过滤器
  9. 插入数据到hive_Hive实现网站PV分析
  10. p沟道mos管导通条件_通俗易懂:MOS管基本知识(快速入门)