Yolov3网络架构分析

上图三个蓝色方框内表示Yolov3的三个基本组件:
 CBL:Yolov3网络结构中的最小组件,由Conv+Bn+Leaky_relu激活函数三者组成。
 Res unit:借鉴Resnet网络中的残差结构,让网络可以构建的更深。
 ResX:由一个CBL和X个残差组件构成,是Yolov3中的大组件。每个Res模块前面的CBL都起到下采样的作用,因此经过5次Res模块后,得到的特征图是608->304->152->76->38->19大小。
其他基础操作:
 Concat:张量拼接,会扩充两个张量的维度,例如2626256和2626512两个张量拼接,结果是2626768。Concat和cfg文件中的route功能一样。
 add:张量相加,张量直接相加,不会扩充维度,例如104104128和104104128相加,结果还是104104128。add和cfg文件中的shortcut功能一样。
Backbone中卷积层的数量:
每个ResX中包含1+2X个卷积层,因此整个主干网络Backbone中一共包含1+(1+21)+(1+22)+(1+28)+(1+28)+(1+24)=52,再加上一个FC全连接层,即可以组成一个Darknet53分类网络。不过在目标检测Yolov3中,去掉FC层,不过为了方便称呼,仍然把Yolov3的主干网络叫做Darknet53结构。
• backbone:Darknet-53

在第1个卷积操作DarknetConv2D_BN_Leaky()中,是3个操作的组合,即
• 1个Darknet的2维卷积Conv2D层,即DarknetConv2D();
• 1个正则化(BN)层,即BatchNormalization();
• 1个LeakyReLU层,斜率是0.1,LeakyReLU是ReLU的变换;
backbone部分由Yolov2时期的Darknet-19进化至Darknet-53,加深了网络层数,引入了Resnet中的跨层加和操作。原文列举了Darknet-53与其他网络的对比:

图三. Darknet精度性能对比
Darknet-53处理速度每秒78张图,比Darknet-19慢不少,但是比同精度的ResNet快很多。Yolov3依然保持了高性能。
(这里解释一下Top1和Top5:模型在ImageNet数据集上进行推理,按照置信度排序总共生成5个标签。按照第一个标签预测计算正确率,即为Top1正确率;前五个标签中只要有一个是正确的标签,则视为正确预测,称为Top5正确率)
• Yolov3网络结构细节

DBL: 上图左下角所示,也就是代码中的Darknetconv2d_BN_Leaky,是yolo_v3的基本组件。就是卷积+BN+Leaky relu。对于v3来说,BN和leaky relu(正则化和激励)已经是和卷积层不可分离的部分了(最后一层卷积除外),共同构成了最小组件。
resn:n代表数字,有res1,res2, … ,res8等等,表示这个res_block里含有多少个res_unit。这是yolo_v3的大组件,yolo_v3开始借鉴了ResNet的残差结构,使用这种结构可以让网络结构更深(从v2的darknet-19上升到v3的darknet-53,前者没有残差结构)。对于res_block的解释,可以在图1的右下角直观看到,其基本组件也是DBL。
concat:张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的,拼接会扩充张量的维度,而add只是直接相加不会导致张量维度的改变。

网络结构解析:

  1. Yolov3中,只有卷积层,通过调节卷积步长控制输出特征图的尺寸。所以对于输入图片尺寸没有特别限制。流程图中,输入图片以256*256作为样例。
  2. Yolov3借鉴了金字塔特征图思想,小尺寸特征图用于检测大尺寸物体,而大尺寸特征图检测小尺寸物体。特征图的输出维度为
    为输出特征图格点数,一共3个Anchor框,每个框有4维预测框数值
    ,1维预测框置信度,80维物体类别数。所以第一层特征图的输出维度为
  3. Yolov3总共输出3个特征图,第一个特征图下采样32倍,第二个特征图下采样16倍,第三个下采样8倍。输入图像经过Darknet-53(无全连接层),再经过Yoloblock生成的特征图被当作两用,第一用为经过33卷积层、11卷积之后生成特征图一,第二用为经过1*1卷积层加上采样层,与Darnet-53网络的中间层输出结果进行拼接,产生特征图二。同样的循环之后产生特征图三。
  4. concat操作与加和操作的区别:加和操作来源于ResNet思想,将输入的特征图,与输出特征图对应维度进行相加,即
    ;而concat操作源于DenseNet网络的设计思路,将特征图按照通道维度直接进行拼接,例如8816的特征图与8816的特征图拼接后生成8832的特征图。
  5. 上采样层(upsample):作用是将小尺寸特征图通过插值等方法,生成大尺寸图像。例如使用最近邻插值算法,将88的图像变换为1616。上采样层不改变特征图的通道数。
  6. 激活函数
    LeakyReLU的激活函数,如下

其中,Darknet的2维卷积DarknetConv2D,具体操作如下:
• 将核权重矩阵的正则化,使用L2正则化,参数是5e-4,即操作w参数;
• Padding,一般使用same模式,只有当步长为(2,2)时,使用valid模式。避免在降采样中,引入无用的边界信息;
• 其余参数不变,都与二维卷积操作Conv2D()一致;
kernel_regularizer是将核权重参数w进行正则化,而BatchNormalization是将输入数据x进行正则化。
Leaky_Relu(yolov3)与mish(yolov4),如下

  1. 残差流程

在darknet_body()中,执行5组resblock_body()残差块,重复[1, 2, 8, 8, 4]次,双卷积(1x1和3x3)操作,每组均含有一次步长为2的卷积操作,因而一共降维5次32倍,即32=2^5,则输出的特征图维度是13,即13=416/32。最后1层的通道(filter)数是1024,因此,最终的输出结构是(?, 13, 13, 1024)。
8. 特征图
特征图
在YOLO v3网络中,输出3个不同尺度的检测图,用于检测不同大小的物体。调用3次make_last_layers(),产生3个检测图,即y1、y2和y3。
13x13检测图
第1个部分,输出维度是13x13。在make_last_layers()方法中,输入参数如下:
• darknet.output:DarkNet网络的输出,即(?, 13, 13, 1024);
• num_filters:通道个数512,用于生成中间值x,x会传导至第2个检测图;
• out_filters:第1个输出y1的通道数,值是锚框数*(类别数+4个框值+框置信度);
在make_last_layers()方法中,执行2步操作:
• 第1步,x执行多组1x1的卷积操作和3x3的卷积操作,filter先扩大再恢复,最后与输入的filter保持不变,仍为512,则x由(?,13, 13, 1024)转变为(?, 13, 13, 512);
• 第2步,x先执行3x3的卷积操作,再执行不含BN和Leaky的1x1的卷积操作,作用类似于全连接操作,生成预测矩阵y;
26x26检测图
第2个部分,输出维度是26x26,包含以下步骤:
• 通过DarknetConv2D_BN_Leaky卷积,将x由512的通道数,转换为256的通道数;
• 通过2倍上采样UpSampling2D,将x由13x13的结构,转换为26x26的结构;
• 将x与DarkNet的第152层拼接Concatenate,作为第2个尺度特征图;
52x52检测图
第3部分的输出结构,52x52,与第2部分类似,如下:
逻辑如下:
• x经过128个filter的卷积,再执行上采样,输出为(?, 52, 52, 128);
• darknet.layers[92].output,与152层类似,结构是(?, 52, 52, 256);
• 两者拼接之后是(?, 52, 52, 384);
• 最后输入至make_last_layers,生成y3是(?, 52, 52, 18),忽略x的输出;
• 最后,则是模型的重组,输入inputs依然保持不变,即(?, 416, 416, 3),而输出转换为3个尺度的预测层,即[y1, y2,
y3]。

参考链接:
https://blog.csdn.net/loco1223/article/details/92078816
https://zhuanlan.zhihu.com/p/76802514
https://blog.csdn.net/weixin_47196664/article/details/106536656

Yolov3网络架构分析相关推荐

  1. 网络架构优化--云企业网典型场景分析for客户

    简介: 网络架构优化--云企业网典型场景分析for客户 1. 背景描述 客户从传统的高速通道迁移到云企业网,加入云企业网的VPC,VBR默认全通,但是实际业务场景需要更严格的策略做选择性放通.此外,由 ...

  2. 网络流量分析利器-可视化网络-netflow【6】-生产网流量监控架构设计

    拓扑图 监控点选择 监控点的选择主要取决于要监控的数据流,如果将监控点放在公网口,则捕获的地址均为公网地址,如果监控点部署在负载均衡内网口,则捕获的数据有公网地址和内网地址两种. 选在公网口,此时要注 ...

  3. 图解通信原理与案例分析-23:5G NR的三大场景、四大基本特征、三组关键技术、两大网络架构演进、八大组网方案

    目录 第一章  移动通信发展路径 第二章 5G三大应用场景(外在服务) 2.1 eMBB 增强移动宽带 2.2  URLLC 超可靠低时延通信 2.3 mMTC 海量机器类通信 第三章  5G的四大特 ...

  4. docker的网络架构配置

    http://xiaorenwutest.blog.51cto.com                  docker 网络架构模 默认情况下,容器可以建立到外部网络的连接,但是外部网络无法连接到容器 ...

  5. 转:秒杀系统架构分析与实战

    原文出处: 陶邦仁   欢迎分享原创到伯乐头条 0 系列目录 秒杀系统架构 秒杀系统架构分析与实战 1 秒杀业务分析 正常电子商务流程 (1)查询商品:(2)创建订单:(3)扣减库存:(4)更新订单: ...

  6. 基于 Spring Cloud 的微服务架构分析

    -     前言    - Spring Cloud是一个相对比较新的微服务框架,2016年才推出1.0的release版本. 虽然Spring Cloud时间最短, 但是相比Dubbo等RPC框架, ...

  7. 基于Attention机制的轻量级网络架构以及代码实现

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要10分钟 Follow小博主,每天更新前沿干货 导读 之前详细介绍了轻量级网络架构的开源项目,详情请看深度学习中的轻量级网络架构总结与代码实现 ...

  8. 何恺明团队新作!深度学习网络架构新视角:通过相关图表达理解神经网络

    标题&作者团队 导语:恺明大神出品,必属精品.Facebook的研究员从一个新奇的角度对神经网络的表示与设计进行探索,提出了一种新颖的相关图表示方式.它有助于对现有网络架构进行更深层次的分析与 ...

  9. 学习资料:网络回溯分析技术八大应用之安全取证

    网络安全 安全取证 网络*** ***防护 科来软件 网络回溯分析技术八大应用之安全取证       安全取证是分析和追查网络***行为最重要的一环.现今安全取证行业多分为两大类:主机取证和网络取证. ...

最新文章

  1. jar包反编译成源代码_IntelliJ IDEA 如何设置自动下载源代码和文档
  2. python笔记本-如何用Python在笔记本电脑上分析100GB数据(下)
  3. 使用split进行分割时遇到特殊字符的问题
  4. 给你一个K8S的“发行版”
  5. RAID冗余技术的介绍AND实现
  6. 不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...
  7. LeetCode 670 最大交换 (暴力+贪心、Python)
  8. 设计灵感素材网站:美工设计者必备
  9. 遍历字段_以字段覆盖标准指导的高效测试生成技术
  10. 关于18183-王者荣耀专区网站的TDK简要分析(更多内容请访问http://www.eduaskx6.com/)...
  11. 给大家推荐一个查变量名的网站
  12. 如何为 Apple 设备使用通用控制?
  13. Oracle 迁移至 MySQL 后 需要修改的SQL语句 小总结
  14. STM32F103系列控制的OLED IIC 4针
  15. IP-Guard清除记录
  16. 30天自制操作系统——第一天到第二天
  17. windows10下装pytorch简单步骤和中遇见的一些问题
  18. 胡晓曼:MindSpore 开源运营与治理 | DEV. Together 2021 中国开发者生态峰会
  19. java使用免费日期API获取当年节假日
  20. MATLAB Robotics System Toolbox学习笔记(一):一步一步建造一个机械臂

热门文章

  1. 2022-2028年中国粘胶纤维市场投资分析及前景预测报告
  2. swig error : Unrecognized option -doxygen Ubuntu 安装 swig-3.0.12
  3. python的日志库logging,真香!!!
  4. LeetCode简单题之拆炸弹
  5. LLVM与Clang局部架构与语法分析
  6. 选择最合适的预测性维护传感器
  7. 【CV】吴恩达机器学习课程笔记 | 第1-2章
  8. python 怎样使list 里面的数据相加
  9. 【NOIP校内模拟】T2 华莱士(环套树)
  10. render函数和redirect函数的区别+反向解析