本文提出了一种新的轻量级卷积方法Cross-Stage Lightweight(CSL)模块,从简单的操作中生成冗余特征。在中间展开阶段用深度卷积代替逐点卷积来生成候选特征。所提出的CSL模块可以显著降低计算量。在MS-COCO上进行的实验表明,所提出的CSL-Module可以达到近似3X3卷积的拟合能力。

简介

由于计算资源有限,开发轻量级目标检测器是必要的。为了降低计算成本,如何生成冗余特征起着至关重要的作用。

本文提出了一种新的轻量级卷积方法——Cross-Stage Lightweight(CSL)模块,从简单的操作中生成冗余特征。在中间展开阶段用深度卷积代替逐点卷积来生成候选特征。所提出的CSL模块可以显著降低计算量。在MS-COCO上进行的实验表明,所提出的CSL-Module可以达到近似3x3卷积的拟合能力。

最后,利用该模块构建了轻量级检测器CSL-YOLO,在仅43% FLOPs和52%参数的情况下,实现了比TinyYOLOv4更好的检测性能。

本文方法

CSL-Module

以往的研究表明,使用更少的计算量来生成冗余特征图,可以大大减少FLOPs。CSPNet提出了一种跨阶段求解的方法,GhostNet系统地验证了cheap操作在该问题中的有效性。然而,问题是生成有价值的特征图的主要操作对于边缘计算来说仍然过于复杂。

本文建议将输入特征映射划分为2个分支。第1个分支通过像GhostNet那样的cheap操作生成一半冗余的特征图;第2个分支通过轻量级主操作生成另外一半必要的特性映射,然后将2个输出cat在一起。总体架构如下图所示。

超参数表示特征扩展的比例。在CSL-Bone中将设为3,在else中将设为2。当下采样或扩展块后需要注意力时,插入SE模块或自适应平均池化。此外,作者还使用了Mish作为激活函数,在实验中,Mish在CNN模型中的表现优于ReLU和Swish。

本文所提出的CSL-Module通过跳过分支的操作生成半冗余特征映射。在主分支上,它不同于CSP模块和Ghost模块。作者建议一个轻量级的主操作来生成另外一半必要的特性映射。在这个分支中设计了一个类似IRB的扩展块,利用跳跃分支的输入特征图和输出特征图,通过深度卷积生成中间候选特征图。

这个块的最大优点之一是无需pointwise CNN,大家都知道深度卷积比pointwise CNN的FLOPs要少得多。它不同于IRB。IRB使用逐点卷积来生成候选特征图。这个块的其他优点是它充分考虑了所有当前可用的特性,这可以最小化冗余计算。此外,因为已经有了跳跃分支,主分支只需要生成一半的特性图,显著减少了FLOPs。

总的来说,所提出的CSL-Module通过cheap操作和跨阶段的思想减少了FLOPs。另一方面,特别对主分支进行了轻量级设计。替换了VGG-16中的卷积层来验证CSL-Module的有效性,分别将新的模型记为IRB-VGG-16、Ghost-VGG-16和CSLVGG-16。

在CIFAR-10上对它们进行了评估,训练设置和trick都是相同的(例如,flip、affine、mixup和steps learning rate)。从下表可以看出,CSL-Module比其他轻量级卷积方法更快。实验证明CSL-Module是一种非常有竞争力的轻量级卷积方法。

构建轻量级组件

本文提出了2种轻量级组件CSL-Bone和CSL-FPN。这2个组件是目标检测器所必需的。CSL-Bone比其他backbone模型提取输入图像的特征值更少;CSL-FPN能更有效地预测不同尺度上的边界框。

  • Lightweight Backbone

本文所提的CSL-Bone由几个CSL-Module组成。SE模块集成到第1个CSL-Module中,增强了整个组的特征提取能力。此外,还在适当的位置插入池化层进行降采样,以获得高级语义特征。

最后,CSL-Bone输出3种不同比例的特征图。总体架构如上图所示。作者在CIFAR-10上评估了CSL-Bone、MobileNetv2和GhostNet,并应用了相同的训练设置。由表2可以看出。尽管CSL-Bone的准确率低于MobileNetv2,但CSL-Bone的FLOPs仅比MobileNetv2低58.7%。另一方面,CSL-Bone的准确率比GhostNet高,但只略微增加了FLOPs。

  • Lightweight FPN

以往的研究表明,大尺度特征图具有更多的物体细节,如边缘、角落或纹理,而小尺度特征图具有全面的语义理解。Vanilla FPN将小特征图向上采样,然后将它们与大特征图融合。另一方面,Vanilla FPN输出3比例尺特征图。这有助于模型检测不同尺寸的物体。

本文提出的CSL-FPN首先将FPN中的所有卷积替换为CSL-Module。其次,在扩展阶段,在2个尺度层之间形成一个中尺度层,这些中尺度层可以增强模型对不同尺度目标的检测能力;第3,在重复阶段,同时有(k)th层、(k-1)th层和(k+1)th层进行特征融合,但每次只使用奇层或偶层。

例如,在第1次融合中只有第2层和第4层,而在第2次融合中,有第1层,第3层和第5层。也就是说,所提出的CSL-FPN具有与Vanilla FPN相同的卷积数,但具有更多的特征融合。总体架构如图所示。

在本文提出的CSL-FPN的实现中,为了使元素的添加更容易,作者在层扩展阶段将5个输出层的通道设置为相同的。重复阶段使用一个超参数R来表示CSL-FPN总共堆叠了几个块。较大的R可以实现更高的AP,但FLOPs也会增加,因此在速度和性能之间存在权衡。作者在基于 CSL-YOLO的MS-COCO上测试了R的最佳值。表3显示了结果。随着R的增大,AP也从18.6%提高到19.8%,AP50从35.5%提高到37.2%,MFLOPs也从127下降到409。经过权衡决定将R设为3。

Tricks of CSL-YOLO

CSL-YOLO架构
  • Anchors约束

YOLO系列使用K-means和IoU距离函数对ground truth的高度和宽度进行聚类,然后将中心点作为anchor box。这些锚点由k个聚类生成,并根据其规模分配到FPN的输出层。当将输出层从3层扩展到5层时,k也从9层增加到15层。

如果使用上述方法,那么由于MS-COCO中有许多小目标,这些anchor大多是小规模的。high-level的输出层将被迫使用小规模的anchor。然而,众所周知,high-level的特征图不利于小目标的检测。因此,作者在K-means前加入上式这样的尺度限制,使得生成的anchor分布更符合各个输出层的尺度。作者在下表中进行了实验,可以看到原来的3个输出层扩展到5个输出层后出现了恶化。在添加了约束方法后,它对AP有了相当大的改进。

  • Non-Exponential预测

YOLO级数实际上预测了x, y, w, h的偏移量,如下:

其中和为模型预测的目标高度和宽度的偏移量,和为anchor的高度和宽度。虽然对数函数可以限制模型的预测范围,但指数函数的敏感性使宽度和高度相当不稳定。因此去掉了log函数,让模型直接预测偏移量。则上式可以修改为:

从下表可以明显看出,即使在不同的图像尺寸下,非指数预测也可以提高1~2%的AP。如图1所示,然后集成所有组件构建CSL-YOLO。在推理过程中,采用soft-nms技术对重叠框进行惩罚。

CSL-YOLO在416×416的输入尺度下,所提出的CSL-YOLO使用3.2M参数和1470 MFLOPs获得42.8%的AP50,而Tiny-YOLOv4使用6.1M参数和3450 MFLOPs获得40.2%的AP50。可以说,CSL-YOLO比先进的Tiny-YOLOv4占用更少的时间(FLOPs)和空间(参数),并能实现令人印象深刻的AP性能。此外,在224×224的输入尺度下,与最轻的YOLO-LITE相比,CSL-YOLO仍然在更低的FLOPs下获得更高的AP性能。

参考

[1].CSL-YOLO: A New Lightweight Object Detection System for Edge Computing

☞微信自动抢红包软件被判赔 475 万;日本科学家打破网速全球纪录;JavaScript蝉联最受欢迎编程语言|极客头条☞CSDN助力HBuilder,为开发者提供源码托管服务☞绝密邮件曝光!看乔布斯如何拯救濒危的苹果?

超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测!!!相关推荐

  1. 2021极术通讯-CSL-YOLO | 超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测

    首发极术社区 如对Arm相关技术感兴趣,欢迎私信aijishu20加入技术微信群. 导读:极术社区与E-learning平台联合推出极术通讯,引入行业媒体和技术社区.咨询机构优质内容,定期分享产业技术 ...

  2. CSL-YOLO | 超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测!!!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文提出了一种新的轻量级卷积方法Cross-Stage Lightweight(CSL)模块,从简单的 ...

  3. 模型如何压缩?使用轻量化的模型压缩技术剪枝(pruning)

    深度学习模型参数太多,本地服务器部署没有问题,但是如果部署到移动端.边缘端,像手机.树莓派等,它们的性能不能满足,所以我们要压缩模型大小,让他们可以部署到边缘端 模型压缩:使用轻量化的模型压缩技术,如 ...

  4. 深度学习机器学习面试题汇——模型优化,轻量化,模型压缩

    深度学习机器学习面试题汇--模型优化,轻量化,模型压缩 提示:互联网大厂可能考的面试题 若CNN网络很庞大,在手机上运行效率不高,对应模型压缩方法有了解吗 介绍一下模型压缩常用的方法?为什么用知识蒸馏 ...

  5. 基于轻量化重构网络的表面缺陷视觉检测

    源自:自动化学报     作者:余文勇 张阳 姚海明 石绘  编辑:OpenCV与AI深度学习 摘 要 基于深度学习的方法在某些工业产品的表面缺陷识别和分类方面表现出优异的性能, 然而大多数工业产品缺 ...

  6. cad模型轻量化_BIM模型轻量化到底有啥用?三种解决方案按需挑选!

    假如你是一个建筑设计师,你将会接触Archicad,Bentley,Revit,su等: 假如你是一个结构设计师,你将会接触PKPM,Tekla,YJK,Revit等: 假如你是一个机电设计师,你将会 ...

  7. 都2021了,别再堆砌网络了!10万奖金悬赏最强轻量化OCR模型

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 文字识别,尤其是对汉语和汉字的识别,对于当下及未来中国数字经济的发展具有重要意义.OCR(Optical C ...

  8. YOLO v4在jetson nano的安装及测试

    You only look once (YOLO)是一款非常著名的物体识别深度学习网络,可实现快速检测的同时还达到较高的准确率.官网 https://pjreddie.com/darknet/yolo ...

  9. cad模型轻量化_【技术帖】基于轻量化概念的碳纤维复合材料汽车保险杠设计

    摘要:汽车工业的飞速发展使交通事故的发生量明显增多,轻量化高性能的汽车保险杠可在交通事故的撞击中减少车身的受损,并保障乘员的安全.简要介绍了使用碳纤维复合材料作为原材料的轻量化汽车保险杠的设计过程. ...

最新文章

  1. Chapter 3、Java语法基础(二)----Java基本数据类型、变量与常量 (20th,Feb)
  2. java时间戳类型如何比较大小_JAVA中两个String类型的时间戳怎么样比较大小?
  3. oracle运行企业管理器,如何打开Oracle 10g的企业管理器(Enterprise Manager)?
  4. 等待队列wait queue
  5. SpringBoot @Configuration •@Import •@Conditional•@ImportResoure基本使用
  6. HDU - 4686 Arc of Dream(矩阵快速幂,水题)
  7. 抽象类的实际应用--模版设计
  8. 风机桨叶故障诊断(七) 滑动窗与非极大值抑制NMS
  9. 面试准备之SQL 3——数据管理
  10. paip.手机时间设置不能修改灰色禁用 解决大法
  11. 最新全套Web前端视频教程
  12. CAUSALITY FOR MACHINE LEARNING
  13. tp5.0 api 接口设计语言包切换功能
  14. qlv视频转换器免费版_推荐几款强大的视频剪辑软件
  15. 熟悉matlab工作环境实验报告,MATLAB上机实验实验报告
  16. FISCO BCOS最强学习路径,汇聚全网资源(2022更新版)
  17. 长沙哪个服务器网速最快,5G网络湖南长沙首秀?网速是4G的60倍,快的让人无法想象...
  18. RESTful的特点分析
  19. 【JAVA】贪吃蛇的初步实现(三)
  20. DriverStudio 3.x 完全版 下载

热门文章

  1. Altium的原理图主题修改为Orcad的默认样式(Altium原理图样式更改)
  2. 【自考总结】寒冬里的温暖
  3. Nowcoder farm ( 树状数组、二维前缀和、二维偏序 )
  4. 软件工程第一周预备作业
  5. leetcode 61 Rotate List ----- java
  6. 【深度学习】【U-net】医学图像(血管)分割实验记录
  7. vue如何生成公钥私钥_百行Python代码演示1私钥生成多公链公钥原理。|区块链财富指北私钥篇(2)...
  8. 数据结构与算法——递归、回溯与分治汇总整理
  9. python 类 探索
  10. python程序员工作总结_2016年终总结--一个Python程序猿的跨界之旅