前些天把yolov1论文学习完(yolov1论文笔记_crlearning的博客-CSDN博客),今天分享一下yolov2的论文(YOLO9000:Better,Faster,Stronger),主要是对yolov1的缺点进行改进,并提出一些训练小trick。

论文地址:https://pan.baidu.com/s/1_30O3DD8gDzQocp9UndxwQ 提取码: 6666


目录

1、摘要

2、Better

2.1Batch Normalization

2.2High Resolution Classifier

2.3Convolutional With Anchor Boxes

2.4Dimension Clusters

2.5 Direct location prediction

2.6Fine-Grained Features

2.7Multi-Scale Training

3、Faster

4、Stronger


1、摘要

这篇论文提出两个新颖的算法,一个是yolov2,一个是yolo9000,作者指出这些算法在COCO数据集上的效果比yolov1以及fast r-cnn都要好。由于目标检测的数据集比图像分类的数据集少,并且价格贵,作者想是通过ImageNet和COCO数据集联合训练得到的yolo9000,通过名字看出,它可以预测9000个分类,其中我主要学习yolov2,下面是论文中主要从更好、更快、更健壮三个维度描述yolov2的提升。

2、Better

yolov1中存在这较大的定位误差,recall值也比较低,因此需要提在提高recall和localization的同时还需要保持classification的精度。但是网络又不能太大,否则算法就会慢,yolov2汇聚了很多新的概念来提高yolo性能。

2.1Batch Normalization

采用批量归一化大大提高模型的收敛性,能够帮助模型更好的规范化,也可以在不过度拟合的情况下去除dropout,并且使用batch normalization能够使得模型的map值提升2%。对于bn的理解,我认为就是将我们的数据规范在同一个范围之内,大大减少了不同数据之间的误差。

2.2High Resolution Classifier

更好分辨率分类器,就是将输入的图片变大,yolov1的主干网络输入图片是224 x 224进行预训练,然后在提高到448 x 448进行检测训练,而yolov2将输入图片提升为448 x 448,在Imagenet预训练模型上更改输入图片分辨率,然后在训练10个epoch,使用这个方法提升了4%的map值。

2.3Convolutional With Anchor Boxes

在yolov1中使用全连接层来预测box的坐标,并不像Faster R-CNN中RPN生成预选框,RPN只需预测偏移量,而不是整个坐标,这样简化了网络学习。yolov2模型有几点改进:

1、移除最后一层的全连接层,并使用anchor boxes来预测

2、移除一层pooling层,为了使得有不错分辨率

3、将输入448 x 448改为416 x 416,论文中提到因为416除32等于奇数,就会有单个单元格对应,怎么去理解这个概念,首先,在我们的网络中存在5个pooling层,那么就相当于缩小32倍,那么在最后的特征图上就是13 x 13,每一个单元格对应原图32 x 32的大小,也就是感受野。如果最后的输出不是奇数,有一个大物体在图像中心,那么就没有中心单元格,中心只能是4个单元格去对应,就导致浪费。(个人理解)

yolov1只有7 x 7 x 2个box,而yolov2有13 x 13 x 9个box,在结果对比起来,yolov2的准确率只降低0.4map,但recall上升了7%,可见有效。

2.4Dimension Clusters

维度聚类,使用anchor boxes有两个问题,首先box的大小是手工挑选,network在进行调整。但是如果可以选择更好的预选框是不是可以让模型更容易学习。作者使用k-means聚类来选择预选框,其中距离并不是使用欧式距离,这容易导致大盒子更大的误差,而是用IOU值来作为距离:

左边曲线图这是聚类的结果,选择k = 5能够得到一个Aug IOU相对较大,并且boxes的个数不多,再往上得到的效果并不是那么好,右边图中是5个box,蓝色为COCO数据集上的,白色为VOC数据集上。

可以看出使用k-means选择boxes比手工选择有更好提升。

2.5 Direct location prediction

直接位置预测,yolo使用anchor的第二个问题就是在模型刚开始迭代时,模型不稳定,原因是预测box的(x,y)位置。论文中给出的计算方式为:

但是从Faster R-CNN论文中的计算方式中

所以论文中应该是写错了符号,这些计算方式对x,y没有任何的限制,收敛速度可能相对较慢,作者使用的是相对每个单元格做偏移,使得x和y的偏移量在0到1之间,计算公式如下:

使用聚类和位置限制的方式比单纯使用anchor提高了5%的map值。

2.6Fine-Grained Features

细粒度特性,它的功能和resnet的原理类似,就是添加一个直通层,将26 x 26的分辨率和   13 x 13的层相加,在26 x 26那一层做个卷积操作,拉长通道数,这样做主要是为了让小信息不丢失,并且有1%的提升

2.7Multi-Scale Training

多尺度训练,为了使得yolov2有更好的鲁棒性,能够在不同的图片大小下进行,每10epoch就改变输入图像尺寸,大小是32的倍数,最大为608,最小为320。这使得yolov2可以对不同的分辨率进行检测。低分辨率速度快,精度低,高分辨速度稍微慢,精度高

3、Faster

Darknet-19,yolov2并没有使用vgg-16,虽然精确,但是处理一张224 x 224图片需要306.9亿次浮点运算,在yolov1中是基于Googlenet的架构,只用了85.2亿计算,精度略低于vgg-16。在yolov2中使用Darknet-19,只需要55.8亿次计算,精度也很高。

分类训练,对训练的图片进行随机裁剪、旋转等数据处理操作,其中对学习率进行处理

4、Stronger

这一块主要是讲解了Imagenet和COCO数据集的分类检测联合训练方式,实现YOLO9000这个模型,由于里面的一些类别存在冲突,使用的是一种WordNet的方式建立WordTree,使得每个类别都分离开

这一块了解得没有很懂,大概就知道这么多,大家有兴趣可以看看原论文,过几天更新YOLOv3,v1,v2我就是打算了解作者的整个思路流程,所以代码也没有看,v3代码打算自己实现一下,谢谢各位大佬观看。

YOLOv2论文笔记相关推荐

  1. 最详细的YOLOv2论文笔记

    个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-116.html 论文:YOLO9000:Better, Fas ...

  2. [论文总结] 深度学习在农业领域应用论文笔记5

    深度学习在农业领域应用论文笔记5 1. Channel pruned YOLO V5s-based deep learning approach for rapid and accurate appl ...

  3. YOLO v2论文笔记

    YOLOv2相对于v1的改进: 1. Batch Normalization ,mAP 增加2% 2. High Resolution Classifier 增加训练图片分辨率为448 * 448 , ...

  4. yolov2学习笔记

    本笔记系学习b站"同济子豪兄"的yolov2的系列课程的笔记,如需观看视频请转:[精读AI论文]YOLO V2目标检测算法_哔哩哔哩_bilibili yolov2即为yolo90 ...

  5. ORB-SLAM3 论文笔记

    ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...

  6. 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION

    一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...

  7. 最新图神经网络论文笔记汇总(附pdf下载)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...

  8. [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)

    Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...

  9. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  10. 光流 速度_[论文笔记] FlowNet 光流估计

    [论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...

最新文章

  1. Exchange 退信550 5.1.11 RESOLVER.ADR.ExRecipNotFound
  2. java反射成员变量_java反射之成员变量的反射
  3. Linux 命令之 pwck -- 用来验证系统认证文件内容和格式的完整性
  4. dba_segments和dba_tables的不同
  5. 妲己机器人怎么升级固件_台湾重金设计的3D妲己,亮瞎了
  6. 14岁少年打赏主播6万多元 后称自己行为无效起诉火山小视频要求返还
  7. Gmail地址图片注册...
  8. 我对骨骼动画的理解(最精减的骨骼动画类)
  9. 实战MEF(3):只导出类的成员
  10. rbw数字信号处理_基于FPGA的数字中频信号处理的设计与实现
  11. 王之泰/王志成《面向对象程序设计(java)》第十一周学习总结
  12. ArcGis 加载tif,tpk,shp格式文件
  13. 行满秩矩阵为何变成增广矩阵还为满秩
  14. 数据库之通过例子了解单表查询
  15. 百度智能云在线活体检测
  16. 图解http(七)-web的攻击技术
  17. 序列特征分析 AND linux,4️⃣ 核酸序列特征分析(6):密码子使用模式的分析
  18. mysql定期清理会话_MySQL会话闲置时间控制
  19. 20221217英语学习
  20. ORACLE ERP 的前世今生摘记及原文

热门文章

  1. html仿qq截图,javascript实现粘贴qq截图功能(clipboardData)
  2. php微信推送的模板信息内容都是空,微信模板消息 推送成功 但是内容显示空白...
  3. 【GlobalMapper精品教程】014:矢量线图层的创建及数字化操作
  4. 系统背景描述_多元化多功能会议室报告厅智能控制系统方案
  5. 目标检测---搬砖一个ALPR自动车牌识别的环境
  6. 手机抢答器正在替代传统抢答器
  7. 给科研新手的论文写作指南
  8. linux下svn图形客户端,CentOS6.3下svn图形客户端SmartSVN安装
  9. 新课程背景下高中化学实验室的硬件建设要求
  10. wifi配网过程的详细介绍