文章目录

  • YOLOv7介绍
  • 整体网络架构
  • 高效聚合网络
  • 重参数化卷积
  • 辅助头检测
  • 动态标签分配
  • 总结

YOLOv7介绍

YOLOv7论文在上个月6号挂在了Arxiv上之后,引起了巨大轰动,短短一个月的时间,Github上就有了4.3k个Star。

从论文题目可以看出来,YOLOv7又是一个集大成者的杰作;从Github源码可以看出, 整体结构与YOLOv5极其相似,因此有YOLOov5基础的小伙伴可以无脑上手v7。

另外来看下v7的两位大牛作者,一作是 Chien-Yao Wang,近几年一直耕耘在目标检测领域,尤其是YOLO系列,代表作:YOLOv7、YOLOR、ScaledYOLOv4、CSPNet等。二作是 Alexey Bochkovskiy,就是在20年Joseph Redmon宣布退出CV领域后扛起YOLO系列大旗并发布YOLOv4的那位大神。

整体网络架构

YOLOv7完整网络架构以及各组件的详细解析可以移步至:【YOLOv7_0.1】网络结构与源码解析,这里从另一个角度来了解YOLOov7的网络架构:

上面这张图是根据我目前的理解,对YOLOv7的整体结构进行的拆分,可能会有不正确的地方,欢迎各位小伙伴前来交流~

可以很清楚的看到,YOLOv7大部分继承自YOLOv5,包括整体网络架构、配置文件的设置和训练、推理、验证过程等等,基本上熟悉v5就可以无脑上手v7了;此外,v7也有不少继承自YOLOR,毕竟是同一个作者前后年的工作,包括不同网络的设计、超参数设置以及隐性知识学习的加入;还有就是在正样本匹配时仿照了YOLOX的SimOTA策略。

除了这些在已有YOLO版本中的算法之外,YOLOv7还包括了近几年最新的trick:高效聚合网络(目前论文还未接收)、重参数化卷积、辅助头检测、模型缩放等等,因此学习YOLOv7还是非常有价值的。

高效聚合网络

图a和图b是之前常用的特征提取网络,图c则是YOLOv7主要用到的ELAN网络,虽然有引文,但是并没有任何详细资料来学习,对此,作者是这么说的:

ELAN paper will be released after accept at the latest.

好叭,那就再等等。图d是对ELAN的改进,其等效网络就是下面这个,也就是两个ELAN(红框里)的Concat,作者的解释是:

For E-ELAN architecture, since our edge device do not support group convolution and shuffle operation, we are forced to implement it as an equivalence architecture.

重参数化卷积

重参数化的作用:在保证模型性能的条件下加速网络,主要是对卷积+BN层以及不同卷积进行融合,合并为一个卷积模块。

下面给出了卷积+BN融合的公式化过程,红色表示卷积参数(权重和偏置),蓝色是BN参数(mmm是输入均值,vvv是输入标准差,γ\gammaγ和β\betaβ是两个可学习的参数),最终经过一系列化简,融合成了一个卷积:

在YOLOv7中,除了网络最后使用RepConv重参数化卷积之外,作者也提到了其他三处使用重参数化技巧的地方:

we perform reparameterization on conv-bn, repconv, orepa, and yolor.

对应model/yolo.pymodel类的fuse函数(这里):

辅助头检测

YOLOv7中,将head部分的浅层特征提取出来作为Aux head(辅助头),深层特征也就是网络的最终输出作为Lead head(引导头),如图b所示。

在计算损失时:

  • 图c的策略是,lead head和aux head分别、单独计算损失,最终相加
  • 图d的策略是,lead head单独计算损失,aux head将lead head匹配得到的正样本作为自己的正样本,并计算损失,最终相加(占比不同)
  • 图e的策略是,lead head单独计算损失,aux head将lead head匹配得到的正样本(这里是粗匹配,也就是选择GT框中心点所在网格的上下左右4个邻域网络作为正样本筛选区域)作为自己的正样本,并计算损失,最终相加(占比不同)

training/yolov7-w6.yaml为例,最后detect模块的前四层为lead head,后四层为aux head,在推理时,只取前四层作为detect层的输出:

动态标签分配

YOLOv7的标签分配策略(正样本筛选),集成了YOLOv5和YOLOX两者的精华

  • YOLOv5
    Step1:Autoanchor策略,获得数据集最佳匹配的9个anchor(可选)
    Step2:根据GT框与anchor的宽高比,过滤掉不合适的anchor
    Step3:选择GT框的中心网格以及最邻近的2个邻域网格作为正样本筛选区域(辅助头则选择周围4个邻域网格)

  • YOLOX
    Step4:计算GT框与正样本IOU并从大到小排序,选取前10个值进行求和(P6前20个),并取整作为当前GT框的K值
    Step5:根据损失函数计算每个GT框和候选anchor的损失,保留损失最小的前K个
    Step6:去掉同一个anchor被分配到多个GT框的情况

总结

概括:

  • YOLOv7在5FPS到160FPS的范围内,无论是速度或是精度,都超过了目前已知的检测器
  • 在V100上进行测试, 精度为56.8%AP的模型可达到30FPS(batch=1)以上的检测速率
  • 目前唯一一款在如此高精度下仍能超过30FPS的检测器

不足:

  • 代码冗余,版本更新问题
  • 精度虚高(参考:如何评价AlexeyAB版的YOLOv7?)
  • 验证时数据预处理的图像缩放异常(没有做padding操作)
  • 验证时的NMS异常(应该是multi_label = False)

参考资料
目标检测算法——YOLOV7——详解
如何评价AlexeyAB版的YOLOv7?

【YOLOv7】主要改进点详解相关推荐

  1. yolov7正负样本分配详解

    来源:知乎-骚骚骚 地址:https://zhuanlan.zhihu.com/p/543160484 整体上在正负样本分配中,yolov7的策略算是yolov5和YOLOX的结合. 首先大概回顾一下 ...

  2. 一文看懂yolov7;yolov7详解

    *免责声明: 1\此方法仅提供参考 2\搬了其他博主的操作方法,以贴上路径. 3* 场景一:yolo v7 场景二:yolo系列未完待续 - Yolo系列强推–>Yolo v1–v5 . Yol ...

  3. 目标检测算法——YOLOV7——详解

    1.主要贡献 主要是现有的一些trick的集合以及模块重参化和动态标签分配策略,最终在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器. 当前目标检测主要的优化方向: ...

  4. Flink CDC 2.0 正式发布,详解核心改进

    简介:Flink CDC 2.0.0 版本于 8 月 10 日正式发布,点击了解详情- 本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flin ...

  5. [opencv完整项目详解] 传统图像算法解决路标的检测和识别(改进升级版)

    之前路标匹配[opencv完整项目详解] 传统图像算法解决路标的检测和识别 的一个改进版. 之前路标匹配存在的一个问题: 所有路标与模板的相似度都处于较高状态(基本都在50%以上),其主要原因就是虽然 ...

  6. YOLOv7 Backbone| 原文源码详解

    YOLOv7 Backbone结构详解 在之前的文章中,我们以YOLOv5为对象,详细解剖了一只麻雀的内部构造,包括anchor机制.backbone的结构.neck的结构和head的结构.在本篇文章 ...

  7. RAD Studio 11.2详解其务实改进(Delphi C++ Builder)-Alexandria

    RAD Studio 11.2详解其务实改进(Delphi & C++ Builder)-Alexandria 目录 RAD Studio 11.2详解其务实改进(Delphi & C ...

  8. 双线性池化(Bilinear Pooling)详解、改进及应用

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|深度学习这件小事 最近看了一系列bilinear pool ...

  9. opencvkcf算法改进_KCF跟踪算法原理 入门详解

    一.算法介绍 KCF全称为Kernel Correlation Filter 核相关滤波算法.是在2014年由Joao F. Henriques, Rui Caseiro, Pedro Martins ...

最新文章

  1. windows下 apache 二级域名相关配置
  2. 20220312 矩阵求逆引理
  3. Spring Boot——易班优课YOOC课群在线测试自动答题解决方案(三)答案查询
  4. 缓存之EHCache(二)
  5. python 编辑数学公式_用python编写数学公式
  6. 前端学习(3124):react-hello-react之props的简写
  7. ASP.NET Core真实管道详解[2]:Server是如何完成针对请求的监听、接收与响应的【上】
  8. opencv_modules.hpp 头文件
  9. L1L2 Regularization的原理
  10. 中文停用词文档_实战:朴素贝叶斯对文档进行分类
  11. 2022深圳杯/东三省数学建模ABCD题 赛题分析解题方案
  12. 人物简介——奥古斯塔·德摩根
  13. 研发工程师-编程题(python)
  14. 二叉树任意两点间最短路径(利用栈-找公共祖先,不需要建立二叉树)
  15. 打印机有重影问题解决方案
  16. 算法分析与设计(一)——0-1背包问题
  17. Java聊天室——实现多人聊天、私聊、群聊
  18. 学校更换门窗计算机桌椅,学校机房建设中需要注意的细节
  19. 【SNS】什么是精英?什么是草根?为什么要SNS?
  20. linux下x264安装

热门文章

  1. (2011-12-14 旧博文搬运)闪耀十字军(ティンクル☆くるせいだーす)【2】
  2. 让你大开眼界的6个超惊人机械假肢,AI加持下还能怎样进化?
  3. 开学后的认识与计划,目标
  4. RNN之seq2seq模型
  5. 面试官把我问懵了....
  6. 豆瓣怎么引流?最轻松最简单的引流方式
  7. 【Material Design视觉设计语言】应用样式设计
  8. CS域与PS域的简介及区别
  9. 【THREE.JS】网页中的炫酷3D
  10. Linux load average详解