（学习笔记2）特征融合

特征融合的定义

特征融合的分类

参考文献

特征融合的定义

特征融合是模式识别领域的一种重要方法，计算机视觉领域的图像识别问题作为一种特殊的模式分类问题，仍存在很多挑战，特征融合方法能够中和利用多种图像特征，实现多特征的优势互补，获得更加鲁棒和准确的识别结果。

计算机视觉（Computer Vision）又称为机器视觉（Machine Vision），顾名思义是一门“教”会计算机如何去“看”世界的学科。在机器学习大热的前景之下，计算机视觉与自然语言处理（Natural Language Process， NLP）及语音识别（Speech Recognition）并列为机器学习方向的三大热点方向。而计算机视觉也由诸如梯度方向直方图（Histogram of Gradient， HOG）以及尺度不变特征变换（Scale-Invariant Feature Transform， SIFT）等传统的手办特征（Hand-Crafted Feature）与浅层模型的组合逐渐转向了以卷积神经网络（Convolutional Neural Network， CNN）为代表的深度学习模型。

特征融合的分类

1.早融合（Early Fusion）

在特征上进行融合，进行不同特征的连接，输入到一个模型中进行训练（先融合多层的特征，然后在融合后的特征上训练预测器，只有在完全融合之后，才进行检测）。这类方法也被称为skip connection，即采用concat、add操作。

skip connection的初衷是为了解决梯度消失的问题。在学习深度神经网络的参数时，通常都是通过梯度下降的方式，即从网络的输出层开始由后向输入层计算每一层的梯度。由于梯度通常是小于1的数值，当层数很多的时候，梯度就会变的越来越小。最终出现梯度消失的问题。当梯度无限接近于0，网络就没有办法更新学习了。所以就有了skip connection这个思路，简言之，在深度网络的中间层额外加入浅层的input，使得梯度的“路径”不再那么长。类似提供一个复合路径，在原来的“长路径”的基础上，现在额外添加一个“捷径”。Skip connection在本质上就是额外提供一个计算梯度的“捷径”。
1. 1.concat（concatenation，级联）
  
  来源于DenseNet，在一个Dense Block中，较浅层的输入会级联在一起输入下一层次网络。一层层递推，越往后的层，获得级联的信息就越多。如图，这种方式可以多很多条“捷径”，浅层的输入直接有通道通往block的输出层。这样做也可以很大程度上降低网络梯度消失的问题。
  
  DenseNet以前馈的方式(feed-forward fashion)将每个层与其它层连接起来。在传统卷积神经网络中，对于L层的网络具有L个连接，而在DenseNet中，会有L(L+1)/2个连接。每一层的输入来自前面所有层的输出。
2. 2.add（addition，加法）
  
  来源于ResNet，其实就是做一个residual block（RB）：这个block通过“identity function”的方式提供捷径。把residual block里面的网络看做一个函数F(x)，他的输入是 x 和输出F(x)+x。“identity”就体现在输入和输出都有一个x，在addition的部分（+x）为求梯度提供了一条捷径。
  
  ResNet（深度残差网络）的提出是CNN图像史上的一件里程碑事件
2.晚融合（Late Fusion）

在预测分数上进行融合，做法就是训练多个模型，每个模型都会有一个预测分数，我们对所有模型的结果进行融合，得到最后的预测结果。（通过结合不同层的检测结果改进检测性能，尚未完成最终融合之前，在部分融合的层上酒开始检测，会有多层的检测，最终将多个检测结果进行融合）。这一思路的代表是feature不融合和feature进行金字塔融合，融合后进行预测。
1. 1.feature不融合
  
  多尺度的feature分别进行预测，然后对预测结果进行综合，如Single Shot MultiBox Detector(SSD)，Multi-scale CNN(MS-CNN)。
  
  SSD属于one-stage方法，在保证了精读的同时，又提高了检测速度。SSD算法在传统的基础网络（比如VGG）后添加了5个特征尺寸依次减小的卷积层，对5个特征图的输入分别采用2个不同的3*3的卷积核进行卷积，一个输出的分类用给的confidence，每个default box生成21个类别的confidence；一个输出回归用的localization，每个default box生成4个坐标值，最后将5个特征图上的结果合并（contact），送入loss层。
2. 2.feature进行金字塔融合，融合后进行预测
  
  如Feature Pyramid Network（FPN）等。
  
  FPN网络有效地解决了物体检测中的多尺度问题。底层特征图中的信息较少，但是目标位置准确，高层特征图信息丰富，但是位置比较粗略，FPN不同的地方在于在不同的特征层独立进行预测。

参考文献

[1] https://blog.csdn.net/qq_42012782/article/details/123202419 特征融合的分类和方法

[2] https://zhuanlan.zhihu.com/p/457590578 浅析深度学习中的Skip Connection

[3] https://zhuanlan.zhihu.com/p/31852747 你必须要知道CNN模型：ResNet

[4] https://zhuanlan.zhihu.com/p/67206089 CNN（卷积神经网络）介绍

[5] https://blog.csdn.net/zj15939317693/article/details/80596870 SSD(Single Shot MultiBox Detector)算法理解

[6] https://blog.csdn.net/stu_shanghui/article/details/92017675 FPN网络详解——feature pyramid network