关注公众号,发现CV技术之美

算法速度优化遇到瓶颈,达不到要求?应用环境没有高性能硬件只有CPU?是不是直接戳中了各位开发者的痛点!莫慌,今天小编就来为万千开发者破局~

这个破局点就是:针对CPU设备及加速库MKLDNN定制的骨干网络PP-LCNet!

空口无凭,上图为证!

从上图我们可以看出,PP-LCNet在同样精度的情况下,速度远超当前所有的骨架网络,最多可以有2倍的性能优势!它应用在比如目标检测、语义分割等任务算法上,也可以使原本的网络有大幅度的性能提升~

而这个PP-LCNet的论文发布和代码开源后,也着实引来了众多业界开发者的关注,各界大神把PP-LCNet应用在YOLO系列算法上也真实带来了极其可观的性能收益。

这时候是不是有小伙伴已经按耐不住也想直接上手试试了?!

小编识趣地赶紧送上开源代码的传送门 ⬇️ 大家一定要Star收藏以免走失,也给开源社区一些认可和鼓励。

  • 项目链接:https://github.com/PaddlePaddle/PaddleClas

而这个PP-LCNet到底是如何设计,从而有这么好的性能的呢?下面小编就带大家来领略一下:

壹、PP-LCNet核心技术解读

近年来,很多轻量级的骨干网络问世,各种NAS搜索出的网络尤其亮眼。但这些算法的优化都脱离了产业最常用的Intel CPU设备环境,加速能力也往往不合预期。百度飞桨图像分类套件PaddleClas基于这样的产业现状,针对Intel CPU及其加速库MKLDNN定制了独特的高性能骨干网络PP-LCNet。比起其他的轻量级SOTA模型,该骨干网络可以在不增加推理时间的情况下,进一步提升模型的性能,最终大幅度超越现有的SOTA模型

PP-LCNet的网络结构整体如上图所示。我们经过大量的实验发现,在基于Intel CPU的设备上,尤其当启用MKLDNN加速库后,很多看似不太耗时的操作反而会增加延时,比如elementwise-add操作、split-concat结构等。所以最终我们选用了结构尽可能精简、速度尽可能快的block组成我们的BaseNet(类似MobileNetV1)。基于BaseNet,我们通过实验,总结出四条几乎不增加延时但又能够提升模型精度的方法,下面将对这四条策略进行详细介绍:

☆更好的激活函数

自从卷积神经网络使用了ReLU激活函数后,网络性能得到了大幅度提升。近些年ReLU激活函数的变体也相继出现,如Leaky-ReLU、P-ReLU、ELU等。

2017年,谷歌大脑团队通过搜索的方式得到了swish激活函数,该激活函数在轻量级网络上表现优异。

在2019年,MobileNetV3的作者将该激活函数进一步优化为H-Swish,该激活函数去除了指数运算,速度更快,网络精度几乎不受影响。我们也经过很多实验发现该激活函数在轻量级网络上有优异的表现。所以在PP-LCNet中,我们选用了该激活函数。

☆合适的位置添加SE模块

SE模块是SENet提出的一种通道注意力机制,可以有效提升模型的精度。但是在Intel CPU端,该模块同样会带来较大的延时,如何平衡精度和速度是我们要解决的一个问题。虽然在MobileNetV3等基于NAS搜索的网络中对SE模块的位置进行了搜索,但是并没有得出一般的结论。

我们通过实验发现,SE模块越靠近网络的尾部对模型精度的提升越大。下表也展示了我们的一些实验结果:

最终,PP-LCNet中的SE模块的位置选用了表格中第三行的方案。

☆更大的卷积核

在MixNet的论文中,作者分析了卷积核大小对模型性能的影响,结论是在一定范围内大的卷积核可以提升模型的性能,但是超过这个范围会有损模型的性能,所以作者组合了一种split-concat范式的MixConv,这种组合虽然可以提升模型的性能,但是不利于推理。我们通过实验总结了一些更大的卷积核在不同位置的作用,类似SE模块的位置,更大的卷积核在网络的中后部作用更明显,下表展示了5x5卷积核的位置对精度的影响:

实验表明,更大的卷积核放在网络的中后部即可达到放在所有位置的精度,与此同时,获得更快的推理速度。PP-LCNet最终选用了表格中第三行的方案。

☆GAP后使用更大的1x1卷积层

在GoogLeNet之后,GAP(Global-Average-Pooling)后往往直接接分类层,但是在轻量级网络中,这样会导致GAP后提取的特征没有得到进一步的融合和加工。如果在此后使用一个更大的1x1卷积层(等同于FC层),GAP后的特征便不会直接经过分类层,而是先进行了融合,并将融合的特征进行分类。这样可以在不影响模型推理速度的同时大大提升准确率。

BaseNet经过以上四个方面的改进,得到了PP-LCNet。下表进一步说明了每个方案对结果的影响:

贰、下游任务性能惊艳提升

☆图像分类

图像分类我们选用了ImageNet数据集,相比目前主流的轻量级网络,PP-LCNet在相同精度下可以获得更快的推理速度。当使用百度自研的SSLD蒸馏策略后,精度进一步提升,在Intel CPU端约5ms的推理速度下ImageNet的Top-1 Acc竟然超过了80%,Amazing!!!

☆目标检测

目标检测的方法我们选用了百度自研的PicoDet,该方法主打轻量级目标检测场景。下表展示了在COCO数据集上、backbone选用PP-LCNet与MobileNetV3的结果的比较。无论在精度还是速度上,PP-LCNet的优势都非常明显

☆语义分割

语义分割的方法我们选用了DeeplabV3+。下表展示了在Cityscapes数据集上、backbone选用PP-LCNet与MobileNetV3的比较。在精度和速度方面,PP-LCNet的优势同样明显。

叁、实际拓展应用结果说明

PP-LCNet在计算机视觉下游任务上表现很出色,那在真实的使用场景如何呢?本节简述其在PP-OCR v2、PP-ShiTu上的表现。

在PP-OCR v2上,只将识别模型的backbone由MobileNetV3替换为PP-LCNet后,在速度更快的同时,精度可以进一步提升。

在PP-ShiTu中,将Backbone的ResNet50_vd替换为PP-LCNet-2.5x后,在Intel-CPU端,速度快3倍,recall@1基本和ResNet50_vd持平。

PP-LCNet并不是追求极致的FLOPs与Params,而是着眼于深入技术细节,耐心分析如何添加对Intel CPU友好的模块来提升模型的性能来更好地进行准确率和推理时间的平衡,其中的实验结论也很适合其他网络结构设计的研究者,同时也为NAS搜索研究者提供了更小的搜索空间和一般结论。

自论文发出以来,PP-LCNet引起了国内外学术界和产业界的广泛关注,无论是各类版本的复现,还是极具探索意义和实用价值的各类视觉任务应用和技术分析文章层出不穷,将简单模型的实用性优化方案重新带入大家的视野,真正践行技术让“生活”更美好的初心,期待PP-LCNet在实际落地和应用中的更多表现。

  • 论文链接:https://arxiv.org/pdf/2109.15099.pdf

本论文工作的总体研究思路由飞桨PaddleClas团队提出并实施。PaddleClas提供全球首个开源通用图像识别系统,并力求为工业界和学术界提供更高效便捷的开发工具,为开发者带来更流畅优质的使用体验,训练出更好的飞桨视觉模型,实现行业场景实现落地应用。

想要获取更多PaddleClas相关介绍及教程文档可前往⬇️:

  • 项目链接:https://github.com/PaddlePaddle/PaddleClas

戳下面的原文阅读,直达项目主页

速度提升2倍,超强悍CPU级骨干网络PP-LCNet出世!相关推荐

  1. 速度提升2倍,超强悍CPU级骨干网络PP-LCNet

    yolov5-pp-lcnet: GitHub - OutBreak-hui/Yolov5-PP-LCNet 分类网络的,结果还出来: https://github.com/ngnquan/PP-LC ...

  2. ZippyPoint: 一种基于学习的特征点提取+二进制描述子,速度提升5倍+,为移动平台提供一种ORB的替代方案...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Realcat 来源丨 计算机视觉SLAM 作者来自ETHZ Computer Vision实验 ...

  3. 【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

    简介: 深度学习平台在微博社交业务扮演着重要的角色.计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题.本文将介绍微博内部设计实现的一套全新的基于 Fluid(内含 Jindo ...

  4. 阿里 AI 研究成果入选国际顶会 ICML 2020,AI 推理速度提升 3 倍

    近日,人工智能国际顶会ICML 2020公布了论文收录结果,阿里巴巴7篇论文入选,是入选论文数量最多的中国科技公司.ICML是机器学习领域全球最具影响力的学术会议之一,今年接受率仅为21.8%. 根据 ...

  5. 在Python中文件用Feather格式,与 CSV说再见,速度提升 150 倍!

    转载:再见 CSV,速度提升 150 倍!_菜鸟学Python的博客-CSDN博客 为什么要和CSV再见? 好了说了那么久,来介绍下为什么要和CSV再见.其实也谈不上彻底再见吧,日常还是要用的,这里再 ...

  6. 将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出

    将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出 目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题--合成 ...

  7. 优化:一种将grid-search速度提升10倍的方法

    Python 2.7 IDE Pychrm 5.0.3 sci-kit learn 0.18.1 前言 抖了个机灵,不要来打我,这是没有理论依据证明的,只是模型测试出来的确有效,并且等待时间下降(约) ...

  8. 如何将 iOS 工程打包速度提升十倍以上

    如何将 iOS 工程打包速度提升十倍以上 过慢的编译速度有非常明显的副作用.一方面,程序员在等待打包的过程中可能会分心,比如刷刷朋友圈,看条新闻等等.这种认知上下文的切换会带来很多隐形的时间浪费.另一 ...

  9. AI一分钟 | 李开复:AI创业公司估值今年会降20%~30%;谷歌让搜索结果加载速度提升两倍...

    ▌李开复:AI 创业公司估值今年会降 20%~30% 创新工场创始人李开复的新书<AI·未来>昨天正式全球发售,在发布现场,李开复谈到目前国内 AI 创业企业现状时表示,今年国内 AI 创 ...

最新文章

  1. PowerDesigner12.5 下载、汉化及破解
  2. 双向slider滑动微信小程序组件slider组件
  3. CUDA:根据本地电脑的NVIDIA显卡驱动版本去正确匹配待安装的CUDA版本之详细攻略
  4. 微信小程序,你的场景呢?
  5. PostgreSQL中如何查看一个表所对应的文件
  6. Google 在开源上的贡献
  7. c++ const限定符
  8. ExecutorService中submit和execute的区别(转)
  9. 今天入手了二手X61
  10. HFSS(ANSYS Electronics)建立工程和基本绘图方法
  11. mysql in查询效率真的低_MySql中in查询效率低的替代方法
  12. 安装与配置VMware虚拟机
  13. 小刘同学的第五十五篇博文
  14. 2019备考[嵌入式系统设计师]之基础知识
  15. matlab 数值积分求面积,用几种数值积分的方法计算地图面积
  16. struck的用法c语言,求struck结构体定义和赋值的具体讲解
  17. 2022-2028年全球与中国化学抑尘剂行业市场深度调研及投资预测分析
  18. 图像处理公共数据库下载地址集锦
  19. pmp中ram和raci的区别_PMP复习三部曲2020
  20. 关于dva框架的二三事

热门文章

  1. 使用deeplearning4j训练Word2Vec(Java操作)
  2. 从欧拉公式看三角波的单边谱与双边谱
  3. CCD摄像头视场角计算公式
  4. MySQL之DML(操作)语句
  5. 跳一跳python开挂_微信跳一跳物理外挂—教​你用 Python 来玩微信跳一跳
  6. php创建一个类,JavaScript_创建一个类Person的简单实例,创建一个类Person,包含以下属 - phpStudy...
  7. map 值为指针_Go sync.Map 并发效率为什么那么高?
  8. mysql远程访问显示警告信息_开启mysql远程访问过程中所遇常见问题的解决办法...
  9. eclipse远程连接hadoop_hadoop上搭建hive
  10. springboot 日志_Springboot与日志