点击上方“计算机视觉工坊”,选择“星标”

干货第一时间送达

在具有有限计算能力和存储器资源的移动设备上运行卷积神经网络(CNN)模型的日益增长的需求促进了对有效模型设计的研究

1

前言

在具有有限计算能力和存储器资源的移动设备上运行卷积神经网络(CNN)模型的日益增长的需求促进了对有效模型设计的研究。近年来已经提出了许多有效的架构,例如:MobileNetShuffleNetNASNet-A

然而,所有这些模型都严重依赖于深度可分的卷积,这在大多数深度学习框架中缺乏有效的实现。在这项研究中,提出了一个PeleeNet”的高效架构,采用传统的卷积方式架构。在ImageNet ILSVRC 2012数据集上,提出的PeleeNet比最先进的高效架构MobileNet的精度提高了0.6%(71.3%对70.7%),计算成本降低了11%。

同时,PeleeNet仅占MobileNet模型大小的66%。然后,提出了一种实时物体检测系统,它将PeleeNetSingle Shot MultiBox Detector(SSD)方法相结合,并优化架构以实现快速速度。

提出的检测系统名为Pelee,在PASCAL VOC2007上达到76.4%mAP(平均精度),在MSCOCO数据集上达到22.4% mAP,iPhone 6s上的速度为17.1 FPS,iPhone 8上的速度为23.6 FPS,COCO的结果优于YOLOv2,考虑更高的精度,13.6倍的计算成本和11.3倍的模型尺寸。

PeleeNet 关键特征

  • Two-Way Dense Layer:

受GoogLeNet (Szegedy et al. (2015))的两路Dense Layer的激发,研究者使用了一个两路Dense Layer来得到不同尺度的感受野。

其中一路使用一个3×3 的卷积核,它能够较好地捕捉小尺度目标;另一路使用两个3×3的卷积核来学习大尺度目标特征。该结构如下图所示:

  • Dynamic Number of Channels in Bottleneck Layer

另一个亮点就是Bottleneck Layer通道数目会随着输入维度的变化而变化,保证输出通道的数目不会超过输出通道。

与原始的 DenseNet 结构相比,实验表明这种方法在节省 28.5% 的计算资源的同时仅仅会对准确率有很小的影响。

  • Transition Layer without Compression

实验表明,DenseNet 提出的压缩因子会损坏特征表达,PeleeNet在转换层中也维持了与输入通道相同的输出通道数目。

  • Composite Function

为提升实际的速度,采用conventional wisdom of post-activation(Convolution-Batch Normalization (Ioffe & Szegedy (2015))- Relu))作为我们的复合函数,而不是DenseNet中所用的预激活。对于post-activation而言,所有的批正则化层可以在推理阶段与卷积层相结合,这可以很好的加快速度。

为了补偿这种变化给准确率带来的不良影响,研究者使用一个浅层的、较宽的网络结构。在最后一个密集块之后还增加了一个1×1的卷积层,以得到更强的表征能力。

主要增强&改进

优化了Single Shot MultiBox Detector (SSD) 的网络结构,以加速并将其与 PeleeNet相结合。

在PASCAL VOC(Everingham et al. (2010))2007数据集上达到了 76.4%的准确率,在COCO数据集上达到了22.4%的准确率。

在准确率、速度和模型大小方面,Pelee系统都优于YOLOv2(Redmon & Farhadi (2016))。主要措施如下:

  • Feature Map Selection

以不同于原始SSD的方式构建目标检测网络,为了减少计算成本,没使用38×38 的特征图。

  • Residual Prediction Block

Lee 等人提出的设计思想(2017),即:使特征沿着特征提取网络传递。对于每一个用于检测的特征图,在实施预测之前构建了一个残差(He et al. 2016)块,ResBlock 的结构如下图所示:

2

PeleeNet架构

整个网络由一个stem block和四个特征提取器组成。除了最后一个阶段,每个阶段的最后一层是具有步幅为2的平均池化层。四阶段结构是大型模型设计中常用的结构。ShuffleNet (Zhang et al (2017)) 使用三阶段结构,并在每个阶段开始时缩小特征图大小。

虽然这可以有效降低计算成本,但我认为早期特征对于视觉任务非常重要,并且过早降低特征图大小会损害表示能力。因此要仍然保持四阶段结构。前两个阶段中的层数被特定的控制到可接受的范围。

3

实验

表1 PeleeNet整体架构

表2 不同设计选择和部件对性能的影响

表3 在Stanford Dogs数据集上的结果

表4 在ImageNet ILSVRC 2012数据集上的结果

表5 不同设计选择对性能的影响

表6 在VOC 2007数据集上的结果

表7 在不同硬件上的结果

PeleeNet 在手机上实验效果图

PeleeNet 出处

文章:Pelee: A Real-Time Object Detection System on Mobile Devices ICLR 2018 workshop track

下载地址:https://arxiv.org/abs/1804.06882

代码:https://github.com/GZQ0723/PeleeNet

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

基于手机系统的实时目标检测相关推荐

  1. 基于神经网络的目标检测论文之目标检测系统:实时路况检测系统的设计与实现

    第五章 实时路况检测系统的设计与实现 物体识别技术被广泛应用于人们的生产生活中.随着深度学习与云计算的飞速发展,带动了物体识别技术产生质的飞跃.高分辨率图像和检测的实时性要求越来越高. 从本章开始,我 ...

  2. 基于ZYNQ实时目标检测系统

    完整工程成功上板实验! 硬件使用的是黑金ZYNQ7020+配套的AN5642黑金双目摄像头. 在vivado2017.4 下verilog实现 ZYNQ7020+AN5642双目摄像头实现实时目标检测 ...

  3. ibm db2获取目标时间与当前时间的差值_高帧频视觉实时目标检测系统

    基于机器视觉的智能目标检测系统应用非常广泛,尤其在航天军工等领域中,经常涉及高速目标的实时检测和控制,对目标检测的智能性和实时性提出了更严格的要求.在这种应用中,视觉系统相对雷达.声纳具有信息量大.抗 ...

  4. ibm db2获取目标时间与当前时间的差值_【学术论文】高帧频视觉实时目标检测系统...

    摘要 为了实现高速场景下的智能实时目标检测,设计了一种基于ZYNQ7000系列FPGA的高速相机平台,并利用该平台进行目标检测算法实现,形成了一套高帧频实时目标检测系统样机. 该系统将高速CMOS图像 ...

  5. 基于立体视觉SLAM系统的在线目标检测与定位【论文解析】

    Online Object Detection and Localization on Stereo Visual SLAM System[Journal of Intelligent & R ...

  6. DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对《我要打篮球》视频段进行实时目标检测

    DL之Yolov3:基于深度学习Yolov3算法实现视频目标检测之对<我要打篮球>视频段进行实时目标检测 目录 输出结果 设计思路 核心代码 相关文章 成功解决AttributeError ...

  7. 【小白目标检测】手把手教你做视频中的实时目标检测(基于Pelee算法)

    手把手教你做视频中的实时目标检测(基于Pelee算法) 0. 先看效果: 1. 算法详解: 2. 下载源码: 3. 运行检测: 有需求的大佬欢迎加入我的接单群,需求详情请群里戳群主 获取源码或数据集: ...

  8. MXNet的Faster R-CNN(基于区域提议网络的实时目标检测)《9》

    MXNet的Faster R-CNN(基于区域提议网络的实时目标检测)<1>:论文源地址,克隆MXNet版本的源码,安装环境与测试,以及对下载的源码的每个目录做什么用的,做个解释. MXN ...

  9. 基于yolov5的Android版本目标检测app开发(部署安卓手机)

    基于yolov5的Android版本目标检测app开发(部署安卓手机) 0.项目开发需求 (1)开发app部署到安卓手机 (2)支持VOC数据集上所有的目标检测 1.开发环境搭建 windows10+ ...

  10. Yolo:实时目标检测实战(上)

    Yolo:实时目标检测实战(上) YOLO:Real-Time Object Detection 你只看一次(YOLO)是一个最先进的实时物体检测系统.在帕斯卡泰坦X上,它以每秒30帧的速度处理图像, ...

最新文章

  1. 华为鸿蒙适配计划,华为鸿蒙适配计划提前曝光,快看看有你的机型吗?
  2. WPF实战案例-打印
  3. Azure认知服务之使用墨迹识别功能识别手写汉字
  4. iOS之UITraitCollection
  5. Express是Node.js上最流行的Web开发框架。
  6. 滴滴北京网约车将涨价 官方解释:为了平衡供需矛盾
  7. java adt简单开发,android java开发 第一天 之熟悉eclipse adt-Go语言中文社区
  8. Q85:对比“直接光照”和“间接光照”的反射模型
  9. JavaScript数组合并
  10. Maven--可选依赖
  11. 三种常用的MySQL建表语句
  12. 22-5 论如何将标准中国地图矢量化并且导入arcgis中
  13. 题库APP源码 在线题库源码 题库系统源码
  14. 在Linux上恢复误删除的文件或目录
  15. Git Branching基础操作学习笔记
  16. 一个dht网络的“磁力链接”搜索python代码
  17. NLP | Word2Vec之基于Negative Sampling的 CBOW 和 skip-gram 模型
  18. 小成开发日记-----利用Python在互动吧网站自动抢票实战分析
  19. Python软件编程等级考试一级——20220915
  20. 连续加班后的一些感想

热门文章

  1. day4_监控日志的脚本
  2. php : 开发记录(2017-03-10)
  3. php-fpm 相关
  4. Java加密压缩文件
  5. html5晋级之路-学习笔记表单
  6. 移动技术发展有点跑偏
  7. 赴日游个人签证门槛降低 年薪3万可申请
  8. Yii 2.0 权威指南 (8) 配合数据库使用
  9. Dataset增加行数据及常用方法
  10. 超硬核讲解数据结构与算法之线性表