作者丨王云鹤@知乎

来源丨https://zhuanlan.zhihu.com/p/540547718

编辑丨CVer

GhostNet作为近年来最流行的轻量级神经网络架构,其在ARM和CPU端的应用已经非常广泛。而在GPU和NPU这种并行计算设备上,原版GhostNet并没有体现出优势。最近,华为诺亚的研究者针对GPU等设备的特点,巧妙引入跨层的廉价操作,减少计算量的同时减少的内存数据搬运,基于此设计了GPU版GhostNet。实验表明,G-GhostNet在现有GPU设备上达到了速度和精度的最佳平衡。在华为自研NPU昇腾310上,G-GhostNet的速度比同量级ResNet要快30%以上。该论文已被计算机视觉顶级期刊IJCV收录。

GhostNets on Heterogeneous Devices via Cheap Operations

论文链接:

https://link.springer.com/article/10.1007/s11263-022-01575-y

arXiv:arxiv.org/abs/2201.03297

PyTorch代码链接:

https://github.com/huawei-noah/Efficient-AI-Backbones

MindSpore代码:

https://gitee.com/mindspore/models/tree/master/research/cv/ghostnet_d

引言

基于卷积神经网络的推理模型在以计算机视觉为基础的各个终端任务如图像识别、目标检测、实力分割等场景中都有广泛的应用。传统的基础神经网络往往由于规模较大的参数与计算量,导致各项终端任务无法实时工作。现有的轻量级推理网络(MobileNet, EfficientNet, ShuffleNet)都是针对CPU、ARM等移动设备设计而成,在GPU等基于大吞吐量设计的处理单元上的表现却不尽人意,推理速度甚至比传统的卷积神经网络更慢。随着硬件基础的提升,云服务器、手机等端侧设备也配备了大量的GPU模块,设计出更适合GPU的推理模型具有重大的学术和商业价值。

因此,新版GhostNet重点关注在GPU设备上能快速推理的卷积神经网络,设计出用更少计算量和参数量达到更高推理速度和更高测试精度的模型。我们考虑了现有的由深度可分离卷积和残差组成的卷积模块在GPU设备上的不足,提出一种利用跨层廉价操作产生Ghost特征的基础网络结构。现有的轻量级网络主要依赖深度可分离卷积来组成卷积层,进一步堆叠形成具有特定输出通道数的模块,最后组成整体网络。我们设计的模块首先由传统卷积层堆叠而成,模块中的每一层都利用廉价操作产生Ghost特征并融合作为模块输出,最后的卷积神经网络由几个这样的大模块堆叠而成。

方法

首先回顾一下原GhostNet架构。GhostNet由Ghost模块搭建而成,Ghost模块里,首先采用普通卷积生成少量特征图,而更多特征图则使用廉价操作(如Depthwise)来生成。这样,Ghost模块使用更少计算量更廉价的方式生成了和普通卷积层一样多的特征图。而Depthwise等廉价操作对于流水线型CPU、ARM等移动设备更友好,对于并行计算能力强的GPU则不太友好。

我们考虑了GPU设备的特点,跳出一个卷积层,转而从跨层(跨block)的特征图出发来降低数据搬运。如图所示,以残差卷积神经网络(ResNet-50,作图省略残差连线)为例,相同stage之间,不同层的输出特征具有较高的相似性,不同stage之间,特征的相似性较低。因此我们利用相同stage之间跨层的廉价操作来让网络生成这些与关键特征相似性高的特征。现有的轻量级推理网络(EfficientNet, MobileNet)一般以深度可分离卷积为基础,这些网络相比于基于普通卷积的神经网络(ResNet, Inception)具有更少的计算量,但是在GPU设备上的实测速度却远比普通卷积慢。

图 ResNet中跨层特征图的相似性

如图所示,我们提出了两种基于跨层廉价操作的stage结构:

G-Ghost stage:给定模块的输入输出通道数(一般情况下输入通道数和输出通道数相同),第二层开始所有的卷积层的通道数都是输出通道数的1/2,剩下的1/2通道的输出特征由第一层卷积层的输出经廉价操作产生。

带mix操作的G-Ghost stage:在G-Ghost stage的基础上,第二层开始所有的卷积层的通道数都是输出通道数的1/2,剩下1/2通道的输出特征由之前所有卷积层分别经过廉价操作产生。

图 G-Ghost核心思想

G-Ghost:利用跨层廉价操作产生Ghost特征

普通卷积神经网络的一个stage,由n层卷积层{L1, L2, …, Ln}堆叠而成:

由G-Ghost图可得,Yn的特征和Y1的特征图有部分相似之处,因此某些Yn可以通过Y1做简单 的变换得到:

廉价操作C(·)包括但不限于1x1卷积、残差连接等。MixGhostV2特征产生的方法和上述描述类似,会利用多个廉价操作生成多个Ghost特征。

G-GhostNet网络

最终的推理网络由基于核心模块设计的stage堆叠而成,具体网络结构如表1所示。Block代表传统的残差模块,output代表输出特征图的大小,#out代表输出特征图的通道数。

表G-GhostNet网络的具体结构

实验

ImageNet图像分类

G-Ghost结构可用于改造不同神经网络架构,如ResNet、RegNet中。在图像分类数据集ImageNet的结果如下表所示,对比具有同样推理速度的基线网络ResNet,G-Ghost可以在该大型分类数据集上提升1.4%的推理精度。在RegNet上使用G-Ghost结构,取得了最好的GPU速度和精度的平衡。

表 图像分类数据集ImageNet上与基线网络ResNet的对比

表 图像分类数据集ImageNet上与SOTA网络的对比

而在轻量神经网络对比中,G-GhostNet同时达到最快的推理速度和最高的推理精度。如下图所示,G-GhostNet在24ms的推理时延下,达到了超过77.5%的ImageNet正确率,远超其他网络如MobileNetV3和EfficientNet。

图 G-GhostNet和其他轻量神经网络对比

目标检测

现有的目标检测器一般由特征提网络和专门的检测网络组成。我们在发明实施例一的基础上,用G-Ghost RegNet结构替换目标检测器的特征提取网络,并在公开的大型目标检测数据集COCO上进行实验。具体结果如表所示,G-Ghost RegNet结构产生的目标检测网络在达到最高mAP的同时还具有最快的推理速度,达到每秒25.9帧。

表 目标检测数据集COCO上与基线特征提取网络的对比

总结

新版GhostNet提出的跨层廉价操作,可用于不同网络结构中,进一步优化模型运行所需的内存,提升GPU等设备上的运行速度。至此,GhostNet系列已经打通ARM、CPU、GPU甚至NPU的常用设备,能够在不同硬件需求下达到最佳的速度和精度的平衡。

本文仅做学术分享,如有侵权,请联系删文。
干货下载与学习后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
计算机视觉工坊精品课程官网:3dcver.com
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现11.自动驾驶中的深度学习模型部署实战12.相机模型与标定(单目+双目+鱼眼)13.重磅!四旋翼飞行器:算法与实战14.ROS2从入门到精通:理论与实战15.国内首个3D缺陷检测教程:理论、源码与实战16.基于Open3D的点云处理入门与实战教程重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。▲长按加微信群或投稿▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款 圈里有高质量教程资料、答疑解惑、助你高效解决问题觉得有用,麻烦给个赞和在看~

顶刊IJCV 2022!华为GhostNet再升级!全系列硬件上最优极简AI网络相关推荐

  1. #今日论文推荐# 顶刊IJCV 2022!华为GhostNet再升级,全系列硬件上最优极简AI网络

    #今日论文推荐# 顶刊IJCV 2022!华为GhostNet再升级,全系列硬件上最优极简AI网络 GhostNet作为近年来最流行的轻量级神经网络架构,其在ARM和CPU端的应用已经非常广泛.而在G ...

  2. 顶刊IJCV 2022!PageNet:面向端到端弱监督篇幅级手写中文文本识别

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文简要介绍2022年8月发 ...

  3. 顶刊IJCV 2022!基于深度学习的图像去模糊综述来了!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载:机器之心 本文提出了一个图像去模糊方向的综述,来自澳大利亚国 ...

  4. 独作论文登数学顶刊,浙大女神校友再被提起:32岁在贵州深山投稿,一家出两位院士...

    明敏 詹士 发自 凹非寺 量子位 | 公众号 QbitAI 最近,华科副研究员以独作身份投中数学顶刊的消息,震惊国内数学圈. 毕竟Acta Mathematica号称是世界上最难投中的数学期刊之一,能 ...

  5. 亚马逊消费者业务宣布永久关闭 Oracle 数据库,去O新进展;华为发布最新5G全系列解决方案;苹果正研究新设备“智能戒指”……...

    戳蓝字"CSDN云计算"关注我们哦! 嗨,大家好,重磅君带来的[云重磅]特别栏目,如期而至,每周五第一时间为大家带来重磅新闻.把握技术风向标,了解行业应用与实践,就交给我重磅君吧! ...

  6. 顶刊TIP 2022|武汉大学遥感国重团队提出二元变化引导的高光谱遥感多类变化检测网络BCG-Net

    论文标题:Binary Change Guided Hyperspectral Multiclass Change Detection 论文链接:https://ieeexplore.ieee.org ...

  7. 荣耀可以升级鸿蒙系统的机型,华为公布鸿蒙升级计划:覆盖上百机型,五年前的老机也能升级...

    昨天华为正式发布了鸿蒙OS 2.0系统,当然大家最关心的依然是到底有哪些华为的机型可以升级到鸿蒙系统上.而华为也没让人失望,根据华为最后公布的信息来看,这次鸿蒙系统的升级范围极广,华为旗下总共有上百种 ...

  8. 【深度学习】华为轻量级神经网络架构GhostNet再升级,GPU上大显身手的G-GhostNet(IJCV22)...

    作者丨Ziyang Li 编辑丨极市平台 导读 本文围绕网络部署时面临的内存和资源问题,分享了如何从可视化和大量实验结果中得到Ghost特征的思想.作者设计出相比C-Ghost更适用于GPU等设备的G ...

  9. 顶刊TPAMI 2022!清华刘玉身团队提出SPD:雪花反卷积网络

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:图形学与几何计算 点云形状补全与生成是三维计算机视觉 ...

最新文章

  1. FFmpeg学习4:音频格式转换
  2. mxGraph破解说明
  3. opencv-python图像处理之素描
  4. 取消MySQL timestamp列默认ON UPDATE CURRENT_TIMESTAMP
  5. python基础知识面试题-Python 基础面试题总结
  6. Java SPI机制分析
  7. 北京中考计算机,规则丨2018考生:2017北京中考统招计算机录取规则
  8. 【Servlet】request对象获取请求头数据和用户数据
  9. Kotlin学习系列(二)
  10. C++编码类定义的规则
  11. grub4dos linux live,grub4dos硬盘引导fedora12 livecd失败
  12. phpstudy mysql 漏洞_phpstudy后门漏洞复现php5.2
  13. 文件夹删除不掉怎么办?
  14. Delphi的日期时间格式
  15. p1633[进制应用]砝码称重
  16. PTA 海盗分赃 (25分)
  17. _stprintf_s和_stscanf_s
  18. RabbitMQ:The channelMax limit is reached. Try later.
  19. Very Suspicious (思维)
  20. [蓝桥杯][2015年第六届真题]穿越雷区

热门文章

  1. 机器学习算法和教程笔记
  2. 4个实用的自媒体平台,帮助大家进行热点追踪,打造爆款作品
  3. 网络中常用的三种拓扑汇聚技术
  4. UVa 11233 - Deli Deli
  5. HINT: Use the Theano flag 'exception_verbosity=high' for a debugprint and storage map footprint of t
  6. 终于弄好TCGAbiolinks包的安装,太难了
  7. 用jQuery实现轮播图效果(自动播放,能手动切换)
  8. 吲哚菁绿ICG-Osu,ICG-PEG12-Osu,吲哚菁绿-聚乙二醇-活性酯
  9. 云原生下一步的发展方向
  10. GitLab-双因子认证