图像中的目标检测学习笔记(一)
1.目标检测
本文包含以下内容:
目标检测算法概述
用于检测的后处理方法
新的度量标准:平均精度中值(mAP)
TensorFlow目标检测API
训练和监测神经网络的提示和技巧
2.基于区域CNNs (RCNNs) I
选择性搜索
目标检测算法的第一次迭代依赖于选择性搜索,一种在图像中分割区域的迭代算法(http://www.huppelen.nl/publications/selectiveSearchDraft.pdf)。
RCNN (Region-Based CNN)家族的第一篇论文使用选择性搜索创建的区域作为卷积神经网络的输入。这篇2014年的论文(https://arxiv.org/pdf/1311.2524.pdf)中,通过选择性搜索创建的区域,在输入到CNN之前将其调整到固定大小的分辨率。
尽管在性能方面取得了突破,但这种架构仍有一些缺点:
需要将每个区域的大小调整为固定大小的输入
需要重新计算每个区域的CNN特征
它的速度很慢,因为它依赖于选择性搜索
SPPNet
SPPNet(https://arxiv.org/abs/1406.4729)引入了一种新的层来弥补RCNN体系结构的一些问题:空间金字塔池化(SPP)层。这一层接受可变大小的输入,并创建固定大小的输入。
考虑一个具有1x1, 2x2, 2x3和4x4分割的4级SPP层的例子,给这个层提供一个2D数组。这个数组将使用这些拆分中的每一个进行池化,创建一个维度为1x1 + 2x2 + 2x3 + 4x4 = 27的向量。无论输入图像的分辨率是多少,输出矢量都是27x1矢量。
SPPNet也采用了与RCNN不同的方法,它重用了CNN的特征。事实上,不是输入裁剪后的输入图像,而是将整个图像输入CNN,并使用选择性搜索区域来裁剪最终的特征图。然后将这些区域送入SPP层。通过这样做,SPPNet获得了与RCNN相似的性能,同时将推断时间提高了近100倍。
3.基于区域CNNs (RCNNs)II
Fast-RCNN
Fast RCNN(https://arxiv.org/pdf/1504.08083.pdf)在RCNN和SPPNet的基础上进行了改进,采用了多任务损失和端到端训练的方法,即对目标的分类和边界框的回归都使用单个损失函数。因此,可以将模型训练作为单个实体,而不必分别训练不同的模块。该模型还使用了感兴趣区域(ROI)池化,一个1级SPP层。
Faster-RCNN
Faster RCNN架构(https://arxiv.org/pdf/1506.01497.pdf)是RCNN家族的最新迭代。
它比RCNN和FastRCNN更好,不再依赖于选择性搜索。相反,它使用区域提议网络(Region Proposal Network, RPN)来生成ROIs。RPN使用最后一个卷积层的特征映射来生成ROIs。RPN在特征图上使用一个滑动窗口,对于该窗口的每个位置,生成k个锚框。这些锚框用于确定该区域是否包含目标。
由于采用了多任务损失函数,FasterRCNN的所有组件都是同时训练的。
4.单段式目标检测
You Only Look Once (YOLO)采取了与FasterRCNN非常不同的方法。这篇2016年论文(https://arxiv.org/pdf/1506.02640.pdf)的作者没有依赖于区域提议步骤,而是直接将输入图像分割成网格。对于网格的每个元素,网络预测B个边界框和目标得分。
通过摆脱区域提议步骤,YOLO提供了比FasterRCNN更快的推理时间。
作者又发布了两个版本的YOLO。这里描述了最新的YOLOv3(https://pjreddie.com/media/files/papers/YOLOv3.pdf)。此外,其他研究人员还发布了YOLOv4(https://arxiv.org/pdf/2004.10934.pdf)和YOLOv5(GitHub - ultralytics/yolov5: YOLOv5
图像中的目标检测学习笔记(一)相关推荐
- 《南溪的目标检测学习笔记》——模型预处理的学习笔记
1 介绍 在目标检测任务中,模型预处理分为两个步骤: 图像预处理:基于图像处理算法 数值预处理:基于机器学习理论 关于图像预处理,请参考<南溪的目标检测学习笔记>--图像预处理的学习笔记 ...
- 《南溪的目标检测学习笔记》——COCO数据集的学习笔记
1 COCO数据集 COCO数据集下载链接:COCO_download 1.1 数据概览 数据集大小 train: 118287张 train+val: 123287张 val: 5000张 目标数量 ...
- 《南溪的目标检测学习笔记》——夏侯南溪的CNN调参笔记,加油
1 致谢 感谢赵老师的教导! 感谢张老师的指导! 2 调参目标 在COCO数据集上获得mAP>=10.0的模型,现在PaddleDetection上的Anchor-Free模型[TTFNet]的 ...
- [初窥目标检测]——《目标检测学习笔记(2):浅析Selective Search论文——“Selective Search for object recognition”》
[初窥目标检测]--<目标检测学习笔记(2):浅析Selective Search论文--Selective Search for object recognition> 本文介绍 前文我 ...
- 9月1日目标检测学习笔记——文本检测
文章目录 前言 一.类型 1.Top-Down 2.Bottom-up 二.基于深度学习的文本检测模型 1.CTPN 2.RRPN 3.FTSN 4.DMPNet 5.EAST 6.SegLink 7 ...
- 《南溪的目标检测学习笔记》的笔记目录
1 前言 这是<南溪的目标检测学习笔记>的目录~ 2 学习目标检测的思路--"总纲" <南溪的目标检测学习笔记>--目标检测的学习笔记 我在这篇文章中介绍了 ...
- 《南溪的目标检测学习笔记》——目标检测模型的设计笔记
1 南溪学习的目标检测模型--DETR 南溪最赞赏的目标检测模型是DETR, 论文名称:End-to-End Object Detection with Transformers 1.2 decode ...
- 3D目标检测学习笔记
博主初学3D目标检测,此前没有相关学习背景,小白一枚-现阶段的学习重点是点云相关的3D检测. 本文是阅读文章:3D Object Detection for Autonomous Driving: A ...
- X射线图像中的目标检测
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 1 动机和背景 每天有数百万人乘坐地铁.民航飞机等公共交通工具,因 ...
最新文章
- 对接接口文档_接口自动化测试框架设计思路
- LINUX驱动注册过程失败处理不当引起的恶果
- 软件开发中的开源协议详解!
- html完整性检测,html - 什么是完整性和crossorigin属性?
- Flex 幻灯片播放
- 高并发场景下,如何保证生产者投递到消息中间件的消息不丢失?
- 二叉树创建,遍历,叶子,深度
- C#中获去一个字符串中的汉字的个数 C#获取字符串全角的个数
- Atitit 软件体系的进化,是否需要一个处理中心
- 数据结构 以数组的形式存储数据(c语言 干货满满)
- Axure授权码,2021年11月11日亲测有效
- 计算机42D,汉印G42D 电子面单打印机
- 【笔记】路由器:动态路由配置、交换机:vlan配置 网络层次结构:OSI7层模型 、TCP/IP模型(4层模型)、DNS解析过程
- div html 下边加横线_css字体下边横线 html超链接更改颜色和去掉下划线
- 大数据基础(林子雨版)
- 硬盘装机后,删除开机启动项
- postgresql FDW概念、用法与原理小结
- 【交通数据(1)——加州高速路网PeMS交通数据】
- 传统安防监控摄像头Onvif云台控制直播流如何转换成GB/T28181对接到国标视频平台公安内网
- 条码打印出现乱码的解决方案
热门文章
- Nginx指定时间段无法访问(Nginx时间段黑名单)
- 微信热词悄然上线 热门事件尽收眼底
- pb系统的twap交易指令_量化交易系统开发技术案例丨量化交易开发源码平台
- PHP+Javascript 实现甘特图
- AndroidStudio1.4 manifest 中注册Activity时的错误提示解决办法
- ESP8266 strap个人备注
- Neuron综述:睡眠和警觉的时空动态
- iBET Online Casino Malaysia ─ W88 Platform Introduction(iBET, iBET Online Casino, online casino, onl
- php 正则抓取页面内容_PHP_php获取网页内容方法总结,抓取到的内容在通过正则表达 - phpStudy...
- java基础-Idea开发工具介绍