MindSpore作为一个端边云协同的的全场景AI开源框架(https://gitee.com/mindspore/),为开发者带来编程更简单、调试更轻松、性能更卓越、部署更灵活、使用更安全的体验,2020.3.28开源来得到数五十万以上的下载量,走入100+高校教学,拥有数量众多的开发者,在AI计算中心,云、CT、消费者1+8+N等端边云全场景逐步广泛引用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、模型众智合作、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。

基于MindSpore的AI顶会论文越来越多,我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟MindSpore合作,一起推动原创AI研究,MindSpore社区会持续支撑好AI原创和AI应用,本文是MindSpore AI顶会论文第二篇,我们选择了来自国内高校在期刊IEEE TITS的一篇论文进行解读,感谢华南理工大学刘老师团队投稿。

研究背景

研究方向:属计算机视觉领域,具体为基于深度卷积神经网络的图像语义分割或场景解析。

研究背景:当前主流的场景解析方法均基于深度学习,以分割准确率为导向,模型通常较为复杂,表现在模型参数量大(千万数量级),计算复杂度高,推理效率低,依赖于专业的图形计算卡。故而,这类方法不适用于计算资源受限的移动端设备和嵌入式设备。本文聚焦于城市街道场景解析,通过设计轻量化的实时语义分割模型,在嵌入式终端(如自动驾驶汽车)上取得性能和效率的有效平衡。

团队介绍:本研究依托于华南理工大学计算机科学与工程学院视听觉与服务计算团队,由广东省科技进步一等奖获得者、国务院特殊津贴专家刘发贵教授领衔。本团队近年来主要参与云计算操作系统,类脑智能计算等多项重大课题研究,并长期致力于推进校企合作,积极深化产学研结合,拥有丰硕的研究成果和扎实的技术沉淀。

论文主要内容

设计轻量化模型的目标决定了网络不可能做得很“深”,既有实时场景解析方法通常采用“小”图像分类模型作为骨干网络,这些方法一般是通过设计多样的特征增强策略来获取多尺度的像素特征,但通常也会面临感受野受限的问题。受GoogLeNet启发,本文着眼于骨干网络本身,结合深度可分离卷积和空间金字塔池化模块(Atrous Spatial Pyramid Pooling, ASPP),提出了一个轻量化金字塔表征模块(Pyramid Representation Module, PRM),可快速增大和丰富模型的感受野(receptive field)。

文章采用残差网络所提出的模型构建范式,重复堆叠上述PRM构成本文模型,称为高效金字塔表征网络(Efficient Pyramid Representation Network, EPRNet)。为了进一步缩减模型参数,EPRNet采用空洞卷积(亦称扩张卷积)近似不同尺寸的卷积核,处在不同深度的空洞卷积层具备不同的空洞率(dilation rates)。

  • 论文链接:

    https://ieeexplore.ieee.org/abstract/document/9384352

  • 开源链接:

    https://github.com/BebDong/MindSeg

算法框架技术要点

如下图所示,既有方法通常采用(a)所示骨干网络加特征增强的模式,极少关注骨干网络本身。本文是基于骨干网络本身对实时语义分割的探索,如(b)所示。

如下图所示,本文采用深度可分离卷积对(a)原始ASPP进行了轻量化改造,得到(b)所示结构。由于逐点卷积(point-wise convolution, PWC)主要作用是加强通道维度的信息交互,我们进一步将PWC简化得到(c)所示的多尺度处理单元(multi-scale processing unit, MPU),以编码像素的多尺度特征。

我们使用MPU替换原始残差模块中的第一个卷积层,得到本文模型EPRNet的基本构件,称为PRM,如下图所示。

通过连续堆叠PRM得到EPRNet,每一层的设置如下表所示:

实验结果

所提出的EPRNet仅有约90万模型参数,在Cityscapes测试集上取得了73.9%的平均交并比(mean intersection over union, mIoU),以较低的计算复杂度和存储开销取得了具有竞争力的分割性能。论文同时给出了一个更加轻量化的版本EPRNet-Light,在损失少量精度的同时进一步提升约50%的推理效率。本文推理效率实验结果未使用任何技巧,比如TensorRT优化。

在CamVid数据集上,较既有方法取得了显著的性能提升,同时保持了较高的推理速度:

下面给出了一些可视化结果:

MindSpore代码实现

(1)对图像数据集进行预处理,并存储为.mindrecord格式,如下图(Cityscapes为例):

(2)模型定义:

(3)模型训练:

(4)模型性能评估:

总结与展望

EPRNet大量使用深度可分离卷积,实现上通过分组卷积(group convolution)加逐点卷积(point-wise convolution)实现。当前主流深度学习框架未对其进行计算性能优化,导致计算速度较慢。后续工作考虑对深度可分离卷积进行计算优化,加快执行效率。另外,EPRNet仅考虑空间结构上的模型拓扑设计,与当前主流融合先验知识的注意力机制尚有差距。

MindSpore论文解读 | EPRNet:应用于实时街景分割的高效金字塔表征网络相关推荐

  1. BCPNet:用于实时语义分割的双向上下文传播网络

    论文地址:https://arxiv.org/pdf/2005.11034.pdf 代码地址:暂无 空间细节和上下文相关性是语义分割的两类关键信息.一般来说,空间细节最可能存在于浅层,而上下文关联最可 ...

  2. 【论文解读】Faster R-CNN 实时目标检测

    前言 Faster R-CNN 的亮点是使用RPN来提取候选框:RPN全称是Region Proposal Network,也可理解为区域生成网络,或区域候选网络:它是用来提取候选框的.RPN特点是耗 ...

  3. U2Net论文解读及代码测试

    论文名称: U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection 论文地址: https://arxiv. ...

  4. 【Cylinder3D论文解读及代码略解】

    Cylinder3D论文解读及代码略解 论文解读 Abstract Introduction Related work 室内点云分割 室外点云分割 3D体素划分 Methodology(本文方法) C ...

  5. 实时语义分割算法大盘点

    本文转载自计算机视觉工坊 语义分割论文 语义图像分割是计算机视觉中发展最快的领域之一,有着广泛的应用.在许多领域,如机器人和自动驾驶汽车,语义图像分割是至关重要的,因为它提供了必要的上下文,以采取行动 ...

  6. 【论文解读】PFLD:高精度实时人脸关键点检测算法

    这篇文章作者分别来自天津大学.武汉大学.腾讯AI实验室.美国天普大学.该算法对在高通ARM 845处理器可达140fps:另外模型大小较小,仅2.1MB:此外在许多关键点检测的benchmark中也取 ...

  7. 可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读

    可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读 Visual Deprojection: Probabilistic Recovery of Collapsed Dimensions 论文链接: ...

  8. 从单一图像中提取文档图像:ICCV2019论文解读

    从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...

  9. CVPR 2017 全部及部分论文解读集锦

    转发链接:http://mp.weixin.qq.com/sbiz=MzI5MDUyMDIxNA==&mid=2247484464&idx=1&sn=b852980edd194 ...

最新文章

  1. laravel--表单验证
  2. Linux系统分区和挂载浅谈
  3. mysql事务隔离级别与设置
  4. 当一个事情过度的艳丽的时候就是一个衰败的开始
  5. 调用函数,判断各位数字立方和是否等于它本身
  6. 在要求或期待别人做到某事的时候,先反思下自己是否值得。就好比我常会期望有很多人会记住我生日是哪天,但......
  7. ubuntu 安装 virt-manager 虚拟机
  8. 使用计算机打印汉子文档,电子科技大学《计算机应用基础(本科)》20春期末考试【标准答案】...
  9. 计算机毕业设计Java乡村基层政务管理系统(源码+系统+mysql数据库+Lw文档)
  10. 在资源管理器中不小心关掉了什么,win10桌面不见了,变黑了
  11. metasploit怎么用? 进阶(msfvenom=payloads+encoders)篇 (゚益゚メ) 渗透测试
  12. python综合应用名片管理系统_综合应用——名片管理系统
  13. 实验三,基于Unittest框架的单元测试
  14. 僵木蠕病毒快速处置建议(零成本)
  15. 如何申请腾讯云免费ssl证书并部署
  16. MPLS和LDP基本配置
  17. 怎样阅读论文(台湾彭明辉)
  18. 高中数学必考公式全总结
  19. ERP系统在元器件贸易企业中的应用
  20. 惯性坐标系、物体坐标系、世界坐标系

热门文章

  1. 如何为ios程序增加itunes同步功能
  2. oppo乐园中java游戏下载_OPPO乐园
  3. 自定义拍照时 拍照界面_搞笑GIF:拍照时压倒性优势只需要一片柠檬
  4. 文本转语音有哪些好用的软件?给你推荐这几款转语音神器
  5. 国内镜像源(阿里、网易、清华、中科大) ubuntu20.04下载地址超快
  6. java实现lsh_深入浅出LSH
  7. 用Junit写单元测试用例
  8. bigfoot NugRunning
  9. 河南邮政共享广告启动会圆满举办 华宝共享广告新经济迈向新起点
  10. PTA 10-5 修改女生成绩