【行人检测】行人检测综述

1. pipeline

Proposal generation：滑窗，粒子窗(particle-window)，对象性方法(objectness method)，区域建议网络(region proposal networks)
Proposal classification
Post processing：基于启发式的方法----NMS及其扩展，基于学习的方法----Gnet、Relation Network

2. 单光谱检测

只用一个传感器检测

2.1 基于手工制作的特征

基于通道的方法

大多数基于通道特征的方法从不同类型的通道（如颜色和梯度通道）中提取各种局部特征来代表图像中的每个检测窗口(proposal)，然后选择一组最具鉴别力的特征来训练行人检测器。
可变性组件模型（DPM）

由一个** 根模型（关注整个人的）和一组可变形部件模型（头/手/大腿/小腿等）**组成，最终得分等于根模型的得分加上部件得分的最大值减去变形成本的部分之和，使用定向梯度直方图（HOG）提取特征。

21种典型的基于手工制作特征的行人检测方法的总结。一个浅层分类器用来学习行人检测器，CF 表示基于通道特征的方法，DPM 表示基于可变形部件模型的方法，SW 表示滑动窗口策略。

2.2 基于深度特征

2.2.1 混合检测方法

CNN特征生成proposal，浅层分类器给proposal分类
手工特征生成proposal，CNN给proposal分类

2.2.2 基于纯CNN的方法

1. 规模感知方法

使用不同的网络内层来检测不同规模的对象。比如从较早的层中提取较小尺度对象的RoI特征，从较后的层中提取较大尺度对象的RoI特征。

2. 基于部位的方法

处理遮挡行人检测问题

基于部位检测器的方法
- 通过已训练好的人体关键点或部位检测网络识别遮挡行人可见身体部位
- 基于统计的部位模型与卷积神经网络特征相结合
  
  数值表示该区域为行人部位的概率值(部位模型)，卷积神经网络度量各个部位可见度，最后综合所有部位的可见得分，得到整体行人的检测结果。
基于注意力机制的方法

自适应地引导行人检测网络更多地关注遮挡行人的可见部位，遮挡行人可见身体部位获得更高的权重，被遮挡部分权重更少。

3. 基于行人整体与部位加权的方法

同一网络中设计并行的两条分支，分别输出两组预测框用以表征整体行人目标以及行人可见部分。

4. 基于级联的方法

设置多种 IoU 阈值的检测方法

基于两阶段检测器的级联方法

两阶段的检测器是指检测算法包含候选框产生和候选框修正两个阶段。

Cascade R-CNN 级联方法：

H 表示检测模块, B 表示检测框回归结果, C 表示检测框分类得分；

将检测结果迭代式地回归，前一级检测模型的输出作为下一级检测模型的输入，并逐步提高正负样本分类时的交并比阈值。
基于单阶段检测器的级联方法

无需经过候选框生成，可以通过锚点框直接预测分类结果和边界框的回归位置。

ALFNet：

多级渐进定位，使用较高IoU阈值筛选第 1 级的检测框作为第 2 级检测框的输入，之后逐步提高网络的IoU阈值，从而训练更精确的行人检测器。

多步预测是提升行人检测器定位精度的关键所在

**5. 基于尺度的方法 **

解决大小尺度行人检测的问题

基于特征融合的方法

小尺度目标往往在图像中呈现轮廓特征模糊、细节纹理不清晰等特点，如何捕获高质量的特征是提高小目标行人检测性能的关键；

顶层特征具有较为清晰的语义特征，同时底层特征具有更丰富的细节信息，包括图像边缘、轮廓和纹理等，通过顶层与底层特征融合互补的方法可以构建更加鲁棒的特征表达。
基于尺度自适应的方法

SAF R-CNN：

该框架包括多个单一模型，每个模型专门通过捕获尺度特定的视觉特征来检测特定范围尺度的行人目标；通过门函数加以控制，
当输入大尺度目标时，为大尺度分支分配较高的权重；反之，赋予小尺度分支的权重更大。

6. 无锚点方法

基于点的方法

基于点的行人检测方法的出发点是认为行人目标可以用含有特定语义信息的点表示，例如角点、中心点等。

CSP：

通过卷积神经网络直接预测行人目标中心点热力图，热力图上响应较大的点即为行人目标置信度较高的位置；通过卷积及全连接层预测相应的行人检测框高度。

基于线的方法

TLL：

基于垂直线的行人检测网络，分为 3 个子任务，分别是行人目标上顶点预测、行人目标下顶点预测以及行人目标中轴线预测。

7. 基于数据增强的方法

生成更多的行人或图像（数据生成），充分利用处理改变当前数据（数据处理）。

8. 损失驱动的方法

使用新的损失函数或者增加额外的损失函数来检测行人。

9. 后处理方法

主要是改进NMS。

10. 多任务方法

利用语义信息帮助行人检测，利用多任务学习网络研究聚合额外特征帮助行人检测。

11. 其他方法

上述大多数方法集中在彩色图像中的行人识别，可以利用其他图像例如热图像和鱼眼图像用于行人检测。

45种典型的基于深度特征的行人检测方法的总结。P-CNN 指纯CNN方法，Hybrid 指混合方法，SW 指滑动窗口策略。R-CNN 是指R-CNN系列中的特征提取方式，包括R-CNN、Fast R-CNN和Faster R-CNN：

3. 多光谱检测

采用多个不同类型的传感器

4. 数据集

上面是早期的行人数据集，中间是现代的行人数据集，下面是多光谱行人数据集。full 是指完全的身体边界盒，visible 是指可见的身体边界盒，head 是指头部边界框。

5. 评价指标与性能比较

MR，AP，JI(拥挤行人检测)，MR^-2

以 MR^-2 为评价指标：

MR(missing rate)，漏检率；FPPI(false positive per image)，每张图片的平均误检率。

MR^-2 采用 FPPI 为横坐标， log(MR) 为纵坐标的曲线。均匀选取 [0.01,1] 范围内的9个FPPI，得到他们对应的9个log(MR)值，并对这几个纵坐标值进行平均，最后通过指数运算上述平均值恢复为MR的百分比形式，就获得了用来量化MR-FPPI曲线的 MR^-2 指标，该指标越小代表检测器性能越高。

6. 挑战

尺度变化
遮挡问题
领域适应性：大多数现有的方法都集中在某个特定的行人数据集上，不能保证有良好的领域适应能力。
多传感器融合
实时检测

参考文献：From Handcrafted to Deep Features for Pedestrian Detection: A Survey；深度学习行人检测方法综述