前言: 这是2022年第一个关于YOLO的改版,该版本由百度提出,称之为YOLOE,是目前各项指标sota的工业目检测器,性能sota且部署相对友好。

该检测器的设计机制包括:

  • Anchor free无锚盒机制
  • 可扩展的backbone和neck,由CSPRepResStage(CSPNet+RMNet)构成
  • 使用Varifocal Loss(VFL)和Distribution focal loss(DFL)的头部机制ET-head
  • 动态标签分配算法Task Alignment Learning(TAL)

该团队提供了s/m/l/x模型,YOLOE-l在COCO-Test中mAP达到51.1,在V100上可达71.1FPS,相对于YOLOX-l加速24.96%,mAP提高1.0,使用trt fp16进行推理可达149FPS.

论文地址: https://arxiv.org/pdf/2203.16250.pdf
代码已开源: https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/ppyoloe

1、介绍

目前YOLOX以50.1达到了速度和精度的最佳平衡,V100上测试可达68FPS,是当前YOLO系列网络的集大成者,YOLOX引入了先进的动态标签分配方法,在精度方面显著优于YOLOv5,受到YOLOX的启发,作者进一步优化了之前的工作PP-YOLOv2。在PP-YOLOv2的基础上提出YOLOE,该检测器避免使用deformable convolution和matrix nms等运算操作,能在各种硬件上得到很好的支持。

YOLOE在速度和准确性权衡方面优于YOLOv5和YOLOX。 在640 × 640的分辨率下,YOLOE-l 达到 51.4 mAP,78.1 FPS:

  • 以1.9% AP高于 PP-YOLOv2,
  • 以1.0% AP高于YOLOX-l(截止2月31日YOLOX官网的精度)
  • 以2.3% AP高于 YOLOv5-l(截止2月31日YOLOv5官网的精度)

YOLOE借鉴YOLOv5,采用width multiplier和depth multiplier的方式配置,支持TensorRT和ONNX,部署代码开源在PaddleDetection。

YOLOE网络结构:

2、 方法

Anchor-free. YOLOE借鉴FCOS,在每个像素上放置一个锚点,为三个检测头设置上、下边界,将 ground truths分配给相应的特征图。然后,计算 bounding box的中心位置,选择最近的像素点作为正样本。这种方式使模型更快一些,但损失了0.3 AP。

Backbone and Neck. Residual Connections和Dense Connections在现代卷积神经网络中得到了广泛的应用。Residual connections引入了捷径来缓解梯度消失问题,也可以作为一种模型集成方法。Dense Connections聚集了具有不同接受域的中间特征,在目标检测任务中表现出良好的性能。CSPNet利用跨阶段Dense Connections来降低计算负担,在不损失精度的情况下降低计算负担,这种方式在YOLOv4、YOLOv5上被使用,且证明是有效的。受这些工作的启发,作者提出了一种新的RepRes-Block,通过结合Residual Connections和Dense Connections,用于YOLOE的主干和颈部。但作者简化了原始的Block(图3(a))。使用 element-wise Add操作来替换连接操作(图3(b)),这两个操作在某种程度上近似于RMNet。因此,在推理阶段,可以重新参数化为RepResBlock(图3©)。作者使用RepResBlock构建类似于ResNet的网络,称之为CSPRepResNet(图3(d),ESE制SE注意力模块)。

Task Alignment Learning (TAL). 标签分配是一个重要的问题。YOLOX使用SimOTA作为标签分配策略来提高性能。然而,为了进一步克服分类和定位的错位,在TOOD中提出了Task Alignment Learning,该策略由 dynamic label assignment和task aligned loss组成。通过对齐这两个任务,TAL可以同时获得最高的分类分数和最精确的边界框。

对于task aligned loss,TOOD使用标准化ttt,即t⃗\vec tt,以替换损失中的目标。它采用每个实例内最大的IoU作为规范化。该分类的二进制交叉熵(BCE)可以重写为:

Lcls−pos=∑i=1NposBCE(pi,t⃗i)L_{cls-pos}=\displaystyle\sum_{i=1}^{N_{pos}}BCE(p_i, \vec t_i)Lcls−pos​=i=1∑Npos​​BCE(pi​,ti​)

Efficient Task-aligned Head (ET-Head). 在目标检测中,分类和定位之间的任务冲突是一个众所周知的问题。YOLOX的解耦头从单级和两级探测器中吸取了教训,并成功地应用于YOLO模型。然而,解耦头可能会使分类和定位任务独立,缺乏任务特定学习。基于TOOD,作者改进了头部,并提出了ET-Head,目标是为了更快更准。如图2所示,作者使用ESE替换TOOD中的层注意力模块,将分类分支的对齐简化,将回归分支替换为Distribution
Focal Loss(DFL)层。通过上述实验,ET-Head在V100上增加了0.9ms。
对于分类任务和定位任务的学习,作者分别选择了Varifocal Loss(VFL)和Distribution focal loss(DFL)。PP-Picodet成功地将VFL和DFL应用于目标探测器中,并获得了性能的提高。VFL与中的Quality Focal Loss(QFL)不同,VFL使用目标评分来衡量正样本的损失权重。
这种实现使得具有高IoU的正样本对损失的贡献相对较大。这也使得模型在训练时更注重高质量的样本,而不是那些低质量的样本。并且两者都用IoU感知的分类评分(IACS)作为预测的目标,这可以有效地得到classification score和localization quality estimation的联合表示,使训练和推理之间具有高度的一致性。
为了解决Bounding Box表示不灵活的问题,作者提出使用一般分布来预测Bounding Box。
Loss=α.lossVFL+β.lossGIoU+γ.lossDFL∑i=1Npost⃗iLoss=\frac{\alpha.loss_{VFL}+\beta.loss_{GIoU}+\gamma.loss_{DFL}}{\displaystyle\sum_{i=1}^{N_{pos}}\vec t_i}Loss=i=1∑Npos​​ti​α.lossVFL​+β.lossGIoU​+γ.lossDFL​​

t⃗\vec tt表示归一化的目标得分,ET-Head获得了0.5%的AP提升。

总体实验的效果如下,以PP-YOLOv2作为Baseline:

3、性能

YOLOE在COCO 2017 test-dev上与不同检测器的速性能比较。 标有“+”的结果是相应官方发布的最新结果。 标有“*”是在作者的环境中使用官方代码库和模型进行测试的结果。 速度的默认精度是 FP32(不带 trt)和 FP16(带 trt)。

4、总结

YOLOE共涉及到了几项改进:

  • Anchor free无锚盒机制
  • 可扩展的backbone和neck,由CSPRepResStage(CSPNet+RMNet)构成
  • 使用Varifocal Loss(VFL)和Distribution focal loss(DFL)的头部机制ET-head
  • 动态标签分配算法Task Alignment Learning(TAL)

以YOLOE-l为基准,所取得的的效果:

  • 以1.9% AP高于 PP-YOLOv2,
  • 以1.0% AP高于YOLOX-l(截止2月31日YOLOX官网的精度)
  • 以2.3% AP高于 YOLOv5-l(截止2月31日YOLOv5官网的精度)

YOLOE-X在640分辨率下mAP达到52.2%

  • 以0.7% AP高于YOLOX-X(截止2月31日YOLOX官网的精度)
  • 以1.5% AP高于 YOLOv5-X(截止2月31日YOLOv5官网的精度)

YOLOE,2022年新版YOLO解读相关推荐

  1. 香港伦敦金交易平台排行榜(2022最新版)

    近些年伦敦金爆火,有许多国内投资者认为,伦敦金不一定要选择香港市场,国内也有相关投资产品和平台,但是香港作为亚洲金融中心和国际大都市,香港的伦敦金平台都是统一受到权威行业组织(香港金银业贸易场)的监督 ...

  2. 香港十大黄金投资公司排名榜单(2022最新版)

    国际黄金交易并不是实物黄金买卖,而是以国际黄金价格为跟踪对象的电子合约交易,交易的过程采用了保证金交易制度.这种制度能够让投资过程的效率大大的提升,因为投资者不需要付出一整张100盎司合约的总价,只需 ...

  3. 科目一常考知识点速记技巧汇总(2022全新版)

    目录 驾考模拟练习:元贝驾考2022科目一_元贝驾考科目一_元贝驾考2022科目一模拟考试 驾考一点通官网_科目一模拟考试2022最新版_驾考宝典2022科目四_驾照考试科目一 驾驶员试题网_专注驾驶 ...

  4. Tita绩效宝:员工绩效考核终极指南(2022 年新版)

    随着今天的工作场所变得比以往任何时候都更开放.更有吸引力.更以员工为中心,公司正在演变,不再采用老式的员工绩效考核方法–而且有充分的理由. 传统的年度绩效考核–对员工在过去一年中的表现的历史快照–是一 ...

  5. 传智教育|2022最新版Java学习路线图全集汇总——Java学习到底学什么?一文详解

    2022版Java学习路线图来了! 每一年的Java学习路线图都会根据当前市场趋势做调整,也能更有针对性的对小伙伴的Java学习之旅提供帮助,这次小智给大家带来了2022最新版的Java学习路线图,内 ...

  6. PyCharm 2022最新版详细图文安装教程(安装+运行测试+汉化+背景图设置)

    PyCharm 2022 最新版 安装教程 名人说:君子生非异也,善假于物也.--荀子 作者:Code_流苏(CSDN) o(‐^▽^‐)o很高兴你打开了这篇博客,跟着步骤一步步尝试安装吧.✧ 目录 ...

  7. InterSystems 2022全球峰会亮点解读:Smart Data Fabric与InterSystems数据平台的超能力

    2022年9月9日,我们将举办线上"InterSystems 2022全球峰会亮点解读",点击此处参会. 亮点一:Smart Data Fabric(智能数据编织) 认识Data ...

  8. 音频编辑软件Goldwave v6.68中文版,goldwave 2022最新版怎么来消除人声

    音频编辑软件Goldwave v6.68中文版是一款高评价,专业的数字音频编辑器.从最简单的录制和编辑到最复杂的音频处理,恢复,增强和转换,它可以完成所有工作.它易于学习和使用,集声音编辑,播放,录制 ...

  9. Java视频教学从入门到精通(2022最新版)

    java视频教程从入门到精通(2022最新版),Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承.指针等概念,因此Java语言具有功能强大和简单易用两个 ...

最新文章

  1. 消除图片在ie中缓存而无法更新的问题
  2. 结合大学四年经验,带你揭秘高效自学Java的方法和路线(从认识、方法、反馈3个角度出发)
  3. BZOJ 1046: [HAOI2007]上升序列【贪心+二分状态+dp+递归】
  4. Node — 第六天(前后端分离)及(身份验证)
  5. MATLAB矩阵操作和算术运算符
  6. 非常好的一篇关于MYSQL编码问题的文章
  7. Spring中的AOP(8)
  8. CSS3 3D切割轮播图
  9. 从宠物浴液做一个O2​O项目的设想
  10. 怎么判断机械表上满弦_自动上弦的机械表,如何晃动就可以上满弦?
  11. 原来这就是公文写作领导讲话稿模板
  12. 出国旅行 Android软件,出国旅行必备实用app,你拥有几款
  13. 国美易卡对IP层数据进行处理,国美易卡对TCP/IP的封装
  14. 浅谈网站PR值 如何提高PR值
  15. 如何有效的避免图片侵权(100%避免网站图片侵权)
  16. Linux | Ubuntu | 查看路由 | 修改路由
  17. Java毕设项目超市会员积分管理系统计算机(附源码+系统+数据库+LW)
  18. 前员工推出新搜索引擎Cuil挑战Google
  19. 10份可直接套用的华为项目管理模板
  20. Kaggle:Quora Question Pairs

热门文章

  1. vue跨域---解决方案
  2. 中南大学计算机博士就业,求救!中南大学博士毕业要求
  3. svg格式的图片怎么放到word中?
  4. 刚开始投资黄金理财,怎么扩大自己的小金库
  5. 如何将AVIF格式转换为PNG格式
  6. 电脑的显卡驱动需要更新吗?
  7. ResNet之残差结构的理解
  8. Flutter ExpansionTile 折叠组件的使用
  9. word2vec的pytorch实现
  10. 国内镜像加速 Android 源码下载