传统与深度学习图像分割算法

Blog：https://blog.csdn.net/qq314000558/article/details/81632693

1998年以来，人工神经网络识别技术已经引起了广泛的关注，并且应用于图像分割。基于神经网络的分割方法的基本思想是通过训练多层感知机来得到线性决策函数，然后用决策函数对像素进行分类来达到分割的目的。这种方法需要大量的训练数据。神经网络存在巨量的连接，容易引入空间信息，能较好地解决图像中的噪声和不均匀问题。选择何种网络结构是这种方法要解决的主要问题。

传统图像分割算法

1）阈值法

阈值法的目标是将一个灰度图像转换为一个前背景分离的二值图像。这种方法首先简化问题，假设灰度图中仅包含两个主要类别，前景物体（蜘蛛）+背景图像，然后通过平衡图像统计直方图的方式，试图找到一个很好的像素阈值，将图像中所有点区分到这两类中去。大于阈值的点是物体，反之则为背景。

2）像素聚类法

聚类方法假设图像中有K个类别（K为参数)，采用迭代聚类的方式（例如使用K-means聚类）将图像中每个像素点分类。

具体过程为，首先选取K个中心点，然后按照每个像素点与这K个像素的差别大小，将图像的所有点分配到这K个中心，之后重新计算每个类中心，并按照上述步骤迭代优化，从而将图像中的所有像素分为K个类别。

3）边缘分割法

图像边缘检测本身作为一个视觉问题，受到学界的广泛关注。它通常的做法是使用一个模版（边缘检测算子）扫描全图得到边缘图像。

而使用边缘的图像分割方法，顾名思义，就是利用所提取到的边缘信息，将图像中的不同区域分割出来。

4）区域生成法

区域增长方法是根据同一物体局部区域内像素具有相似性来聚集像素点的方法。它从初始区域开始，将相邻的像素归并到一起，这个过程彷佛一个种子生成起来一般，因此命名为区域生长。

5）图切割

图切割就是移除一些边，使得两个子图不相连；图切割的目标是，找到一个切割，使得移除边的和权重最小。

优点：分割效果还不错，并且是一种普适性的框架，适合各种特征

缺点：时间复杂度和空间复杂度较高，需要事先选取分割块儿的数目

下图是将像素间的关系信息简单描述成为距离，根据距离差距来划分图像的示例，图切割的失败案列：

为了克服这个失败，有一篇论文提出了Normalized Cut的图划分方法，简称 “N-cut”。N-cut的计算有一些连接权重的公式，它是在图分割中加入权重参数Volume。它的思想主要是通过像素和像素之间的关系权重来综合考虑，根据给出的阈值，将图像一分为二。Volume(A)是A中所有边的权重之和。这种方法平衡了每一个子图的大小。

在实际运用中，每运行一次 N-cut，只能切割一次图片，为了分割出图像上的多个物体，需要多次运行，下图示例了对原图 a 进行 7 次 N-cut 后，每次分割出的结果。

但是可以很明显的看到这种简单粗暴的分割方式并不准确，趴在地上的运动员肢体在(b)图中分割出来，而他的手臂则在(h)图中被分割，显然是错误的。

N-cut 技术的缺陷很明显，于是有了一种更新的优化方式，这种优化方式为了避免机器不能很好的分割类似上面例子中 “衣服和肢体颜色反查太大导致分割错误” 的情况，增加了人机交互，在分割过程中，需要人工干预参与完成。这种需要人机交互的技术叫Grab Cut。

这种技术其实是这样的，给定一张图片，然后人工在想要抠图（也就是我们说的分割）的区域画一个红框，然后机器会对略小于这个框的内容进行 “主体计算”，嗯，这个 “主体计算” 是我起的名字，为了你们更好的理解背后复杂的设计和公式，因为机器会默认红框中部是用户期望得到的结果，所以将中部作为主体参考，然后剔除和主体差异较大的部分，留下结果。

　　此技术中，抠出来的部分叫 “前景”，剔除的部分叫 “背景”。有时候还挺好用的，但是稍微复杂一点的时候问题就来了：比如要抠下面这个戴头盔的大兵，头盔颜色和背后岩石颜色很相近，结果机器就会把头盔部分剔除，同样脖子附近的山岩也被当做了前景而保留了进来。

此时又需要进行人工干预了，需要手动在图像上进行标注，画白色线表示是希望保留的前景，红色表示背景，指导辅助机器进行判断，再次运算后，得到了较好的期望结果。

虽然看上去 Grab Cut 给出的结果还不错，但缺点也很明显，首先，它同N-cut 一样也只能做二类语义分割，说人话就是一次只能分割一类，非黑即白，多个目标图像就要多次运算。其次，它需要人工干预，这个弱点在将来批量化处理和智能时代简直就是死穴。

深度学习算法

第一篇比较成功用神经网络做图像分割的论文是在2015年的CVPR上发表的Fully Convolutional Networks (以下简称为FCN)：传统神经网络做分类的步骤是，首先是一个图像进来之后经过多层卷积得到降维之后的特征图，这个特征图经过全连接层变成一个分类器，最后输出一个类别的向量，这就是分类的结果。而FCN是把所有的全连接层换成卷积层，原来只能输出一个类别分类的网络可以在特征图的每一个像素输出一个分类结果。这样就把分类的向量，变成了一个分类的特征图。

卷积

卷积的物理意义，就是 “加权叠加”。在对图像处理进行卷积时，根据卷积核的大小，输入和输出之间也会有规模上的差异。

上图左边 5*5 的方块视为图像输入，黄色移动的 3*3 以及里面的数字（*1/*0）是卷积核，该卷积核按照步长为 1 的顺序依次从原始输入的左上角一直移动计算叠加到右下角，卷积核一共移动 9 次。九次的位置对应到右侧的 3*3 的相应格内，格中的数字便是卷积值，（此处是卷积核所覆盖的面积内元素相乘再累加的结果）。9 次移动计算完毕后，右侧 3*3 的新矩阵为此次卷积层的计算结果。

在实际计算过程中，输入是一张原始图片和滤波器 filter（一组固定的权重，也就是上面我们说的卷积核对应的实际意义）做内积后得到新的二维数据。不同的滤波器 filter 会得到不同的输出数据，比如轮廓、颜色深浅，如果想提取图像的不同特征，需要用不同的滤波器 filter 提取想要的关于图像的特定信息。

上图为一个卷积层中的卷积处理过程，注意上下两次卷积核内容是不同的，所以得到两种处理结果。等号右边的新的二维信息在 CNN 网络中，会作为下一个卷积层的输入，即在下一个卷积层计算时，右边的图像会作为输入的原始图像。

全卷积神经网络

CNN 的输入是图像，输出是一个结果，或者说是一个值，一个概率值。而FCN 提出所追求的是：输入是一张图片，输出也是一张图片，学习像素到像素的映射。

CNN 网络中的后三层，都是一维的向量，计算方式不再采用卷积，所以丢失了二维信息，而 FCN 网络中，将这三层全部转化为 1*1 的卷积核所对应等同向量长度的多通道卷积层，使后三层也全部采用卷积计算，整个模型中，全部都是卷积层，没有向量，所以称为 “全卷积”。

FCN 将第6层和7层分别从4096长度的向量转化为4096通道的卷积层，第8层则是21通道的卷积层。之所以第8层从1000缩减到21，是因为FCN使用的识别库是PASCAL VOC，在PASCAL VOC 中有20种物体分类，另外一个Background分类。

该文所用到的分割图片中不同的颜色就表示不同的物体类别，一共有 21 种颜色：

CNN的识别是图像级的识别，也就是从图像到结果，而FCN的识别是像素级的识别，对输入图像的每一个像素在输出上都有对应的判断标注，标明这个像素最可能是属于一个什么物体/类别。

在此处特别要指出的是，在实际的图像语义分割测试时，输入是一个 H*W*3的三通道彩色图像，而输出是一个H*W的矩阵。

这就可以简单看做每一个像素所携带的信息是多维的，比如颜色，就分为 3 层，分别对应 R、G、B 三个值。　

所以在进行卷积的时候，每一个通道都是要独立计算的，计算完之后再叠加，得到最终卷积层结果。

池化

如果卷积核移动的步长为 1，那么卷积是按照像素排列去挨个计算的，计算量可想而知会有多么庞大。但是在实际中，相邻的像素往往都是一类，按照像素依次计算就显得冗余，所以在卷积之后会对输出进行一次池化(pooling)处理。

池化简单来说就是将输入图像切块，大部分时候我们选择不重叠的区域，假如池化的分割块大小为 h*h，分割的步长为 j，那么一般 h=j，就像上图，如果需要重叠，只需要 h>j 即可。对完整图像切分，再取切分区域中所有值的均值或最大值作为代表该区域的新值，放入池化后的二维信息图中。得到的新图就是池化结果。

在CNN和FCN的网络模型中，每一个卷积层，都包含了[卷积+池化]处理，这就是传说中的 “下采样”，但这样处理之后的结果是：图像的像素信息变小了，每一层的像素信息都是前一层的1/2大小，到第五层的时候，图像大小为原始图像的1/32。在 CNN 算法里，这并没有什么要紧的，因为CNN 最终只输出一个结果：“这个图上是个啥”，但是FCN 不同，FCN是像素级别的识别，也就是输入有多少像素，输出就要多少像素，像素之间完全映射，并且在输出图像上有信息标注，指明每一个像素可能是什么物体/类别。所以，就必须对这 1/32 的图像进行还原。

上采样

为了能让分类的特征图恢复到原图的大小，采用了上采样层。这里用到个纯数学技术，叫 “反卷积”，对第5层进行反卷积，可以将图像扩充至原来的大小(严格说是近似原始大小，一般会大一点，但是会裁剪掉)。这个 “反卷积” 称为 “上采样”。（和下采样对应）

怎么进行图片放大操作的：这里有两个概念，第一个概念叫反卷积层（Deconvolution）；第二个概念叫双线性差值上采样（Bilinear Upsampling）。这里的「反卷积」其实不是真正的卷积的逆运算，用Transposed Convolution 代替比较合适，但原论文中用的是Deconvolution，我们下面还是用这个词，它可以等效于普通卷积。它的主要目的就是实现上采样。

双线性上采样差：

双线性上采样差值的三个用途：用作初始化反卷积的权重；不用反卷积，使用上卷积+卷积；只使用上采样。

在技术上，我们可以对任一层卷积层做反卷积处理，得到最后的图像，比如用第三层 (8s-8 倍放大)，第四层 (16s-16 倍放大)，第五层 (32s-32 倍放大) 得到的分割结果。

而不同上采样结构得到的结果对比如下：

通过对比可以很明显看到：在 16 倍还原和 8 倍还原时，能够看到更好的细节，32 倍还原出来的图，在边缘分割和识别上，虽然大致的意思都出来了，但细节部分（边缘）真的很粗糙，甚至无法看出物体形状。

那么为什么会这样呢？这里就涉及到一个感受域（receptive field）的概念。较浅的卷积层（靠前的）的感受域比较小，学习感知细节部分的能力强，较深的隐藏层 (靠后的)，感受域相对较大，适合学习较为整体的、相对更宏观一些的特征。所以在较深的卷积层上进行反卷积还原，自然会丢失很多细节特征。

于是我们会在反卷积步骤时，考虑采用一部分较浅层的反卷积信息辅助叠加，更好的优化分割结果的精度：

FCN还是存在很多无法避免的问题，比如，精度问题，对细节不敏感，以及像素与像素之间的关系，忽略空间的一致性等问题。于是更牛的大牛就出现了，有牛人提出一种新的卷积计算方式，开始称为 “带 hole” 的卷积，也就是使用一种 “疏松的卷积核” 来计算，以此来取代池化的处理。

前面已经讲过，池化操作能够减少计算量，同时也能防止计算结果过拟合，那么单纯取消池化操作又会使单层网络的感受域缩小。如果使用 “疏松的卷积核” 来处理卷积，可以达到在不增加计算量的情况下增加感受域，弥补不进行池化处理后的精度问题。（这种带洞的卷积方式后来起了一个高雅的名字叫做：“Dilated Convolutions”。）

膨胀卷积或带洞卷积(Dilated Convolution)：它的用途可以使特征图视野变大，但不增加计算量，对于图像分割的好处，更利于提取全局信息，这样就使得分割准确率增加很多。

这种方式人为加大了卷积核内部元素之间的距离，可参考下图：

红点表示卷积核的元素，绿色表示感受域，黑线框表示输入图像。

(a)为原始卷积核计算时覆盖的感受域，(b)为当卷积核覆盖的元素间距离增大的情况，不再在连续的空间内去做卷积，跳着做，当这个距离增加的越大时，单次计算覆盖的感受域面积越大。

上图不太好理解的话再来看一张图：

上层绿色点表示输入层像素点，下层黄色是输出层（单次计算时的层级关系），当卷积核元素间距为 0 时（相邻），123 对应输出 A，234 对应输出 B，345 对应输出 C，那么输出 ABC 三个元素结果的感受域只覆盖了 12345 这几个原始像素点。

如果采用稀疏的卷积核，假设间距为 1（相当于卷积计算时跳一个像素再取值计算），如图所示，那么结果 A 对应的输入是 135，结果 B 对应的输入是 246，结果 C 对应的输入是 357，同样输出 ABC 三个结果，在原始图像上取的像素点的长度就多了。

这是水平 X 轴方向上的扩展，在 Y 轴上也会有同样的扩展，感受域在没有增加计算（相对于池化操作后）的情况下增大了，并且保留了足够多的细节信息，对图像还原后的精度有明显的提升。

看一下对比图：

第一列是原始图像，最后一列是手工标注的训练输入图像，第二列为 FCN 在 1/8 倍数下的还原，第三列则是采用了新的卷积算法的还原图像，可以很明显看到，第三列对细节的分割明显优于第二列 FCN 8 倍的图像。

第二个问题，即像素与像素之间的逻辑关系的问题，毕竟前面的算法也只是单纯的计算，而没有根据物理意义，去进行判断。比如需要判断在输出的标注里面，这些结果是否合法（符合现实逻辑）

很多以深度学习为框架的图像语义分割系统都使用了一种叫做 “条件随机场”（ Conditional Random Field，简称 CRF）的技术作为输出结果的优化后处理手段。其实类似技术种类较多，比如还有马尔科夫随机场 (MRF) 和高斯条件随机场 (G-CRF) 用的也比较多，原理都较为类似。

特征金字塔(Feature Pyramid)：

特征金字塔网络：

Pyramid Pooling：

前面的是在不同的尺度上提取特征，而这个是把特征提取之后pooling到不同的大小。

条件随机场

FCN是像素到像素的影射，所以最终输出的图片上每一个像素都是标注了分类的，将这些分类简单地看成是不同的变量，每个像素都和其他像素之间建立一种连接，连接就是相互间的关系。于是就会得到一个 “完全图”：

上图是以 4*6 大小的图像像素阵列表示的简易版。那么在全连接的 CRF 模型中，有一个对应的能量函数：

其中等号右边第一个一元项，表示像素对应的语义类别，其类别可以由 FCN 或者其他语义分割模型的预测结果得到；而第二项为二元项，二元项可将像素之间的语义联系 / 关系考虑进去。举个简单的例子，“天空”和 “鸟” 这样的像素在物理空间是相邻的概率，应该要比 “天空” 和 “鱼” 这样像素相邻的概率大，那么天空的边缘就更应该判断为鸟而不是鱼（从概率的角度）。通过对这个能量函数优化求解，把明显不符合事实的识别判断剔除掉，替换成合理的解释，最后可以得到对 FCN 的图像语义预测结果的优化，生成最终的语义分割结果。

优化后的对比图：

上图第二列是 FCN 网络 8 倍还原分割结果，第三列是将 CRF 植入 FCN 处理后的结果。

可以很明显的看到，第三列的物体识别无论是轮廓细节分割还是物体识别，都优于第二列，特别是第二行的沙发中有奇怪的红色东西的识别，在进行 CRF 优化之后，还原成了绿色的沙发。

目前的这种机器学习方式还属于监督性学习，科学家们还是希望将来可以实现半监督或弱监督式学习，这样更类似人类的学习认知方式。在这条道路上，还有很多有趣的东西，比如示例级别（instance level）的图像语义分割问题也同样热门。该类问题不仅需要对不同语义物体进行图像分割，同时还要求对同一语义的不同个体进行分割（例如需要对图中出现的九把椅子的像素用不同颜色分别标示出来）。

另外，在目前的计算技术水平下（硬件软件），使用 FCN 训练建模的时间大约需要三周，这也说明在这个领域里还有很多值得探索和需要解决的问题。

Mask-RCNN

第一个特点它是多分支输出的。它同时输出物体的类别，bounding box和Mask。

第二个特点是它使用了Binary Mask。之前神经网络都是使用多类Mask，而它只需要判断物体在哪个地方。

最后是RoiAlign层。能比较精确地把物体的位置对应到特征图的位置上。

Rol Pooling与Roi Align：

通用框架

前端使用FCN(全卷积网络)进行特征粗提取，后端使用CRF/MRF(条件随机场/马尔科夫随机场)优化前端的输出，最后得到分割图（原图 --> FCN --> CRF/MRF --> 分割图）

前端

我们分类使用的网络通常会在最后连接几层全连接层，它会将原来二维的矩阵（图片）压扁成一维的，从而丢失了空间信息，最后训练输出一个标量，这就是我们的分类结果。而图像语义分割的输出需要是个分割图，且不论尺寸大小，但是至少是二维的。所以，我们需要丢弃全连接层，换上全卷积层，而这就是全卷积网络了。具体定义请参看论文：Fully Convolutional Networks for Semantic Segmentation。此处的FCN特指Fully Convolutional Networks for Semantic Segmentation论文中提出的结构，而非广义的全卷积网络。该FCN主要使用了三种技术：卷积化(Convolutional)、上采样(Upsample)、跳跃结构(Skip Layer)。

卷积化

卷积化即是将普通的分类网络，比如VGG16，ResNet50/101等网络丢弃全连接层，换上对应的卷积层即可。如下图：

上采样

此处的上采样即是反卷积（Deconvolution）。当然关于这个名字不同框架不同，Caffe和Kera里叫Deconvolution，而Tensorflow里叫Conv_transpose。CS231n这门课中说，叫Conv_transpose更为合适。

众所诸知，普通的池化会缩小图片的尺寸，比如VGG16五次池化后图片被缩小了32倍。为了得到和原图等大的分割图，我们需要上采样/反卷积。

反卷积和卷积类似，都是相乘相加的运算。只不过后者是多对一，前者是一对多。而反卷积的前向和后向传播，只用颠倒卷积的前后向传播即可。所以无论优化还是后向传播算法都是没有问题。图解如下：

跳跃结构(忽略连接结构)

这个结构的作用就在于优化结果，因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的，所以作者将不同池化层的结果进行上采样之后来优化输出。具体结构如下：

`SegNet/DeconvNet`

这样的对称结构有种自编码器的感觉在里面，先编码再解码。这样的结构主要使用了反卷积和上池化。即：

反卷积如上。而上池化的实现主要在于池化时记住输出值的位置，在上池化时再将这个值填回原来的位置，其他位置填0即OK。

`DeepLab`

FCN的粗糙之处：为了保证之后输出的尺寸不至于太小，FCN的作者在第一层直接对原图加了100的padding，可想而知，这会引入噪声。

而怎样才能保证输出的尺寸不会太小而又不会产生加100padding这样的做法呢？可能有人会说减少池化层不就行了，这样理论上是可以的，但是这样直接就改变了原先可用的结构了，而且最重要的一点是就不能用以前的结构参数进行fine-tune了。所以，Deeplab这里使用了一个非常优雅的做法：将pooling的stride改为1，再加上1padding。这样池化后的图片尺寸并未减小，并且依然保留了池化整合特征的特性。

但是，事情还没完。因为池化层变了，后面的卷积的感受野也对应的改变了，这样也不能进行fine-tune了。所以，Deeplab提出了一种新的卷积，带孔的卷积：Atrous Convolution.即：

而具体的感受野变化如下：

(a)为普通的池化的结果，(b)为“优雅”池化的结果。我们设想在(a)上进行卷积核尺寸为3的普通卷积，则对应的感受野大小为7.而在(b)上进行同样的操作，对应的感受野变为了5.感受野减小了。但是如果使用hole为1的Atrous Convolution则感受野依然为7.所以，Atrous Convolution能够保证这样的池化后的感受野不变，从而可以fine tune，同时也能保证输出的结果更加精细。即：

`总结`

这里介绍了三种结构：FCN, SegNet/DeconvNet，DeepLab。当然还有一些其他的结构方法，比如有用RNN来做的，还有更有实际意义的weakly-supervised方法等等。

后端

`全连接条件随机场(DenseCRF)`

对于每个像素i具有类别标签xi还有对应的观测值yi，这样每个像素点作为节点，像素与像素间的关系作为边，即构成了一个条件随机场。而且我们通过观测变量yi来推测像素i对应的类别标签xi。条件随机场如下：

条件随机场符合吉布斯分布：(此处的x即上面说的观测值) P(X=x|I)=1Z(I)exp(?E(x|I)) 其中的E(x|I)是能量函数，为了简便，以下省略全局观测I： E(x)=∑iΨu(xi)+∑i<jψp(xi,xj)< nobr=""> 其中的一元势函数∑iΨu(xi)即来自于前端FCN的输出。而二元势函数如下： Ψp(xi,xj)=u(xi,xj)∑m=1Mω(m)k(m)G(fi,fj) 二元势函数就是描述像素点与像素点之间的关系，鼓励相似像素分配相同的标签，而相差较大的像素分配不同标签，而这个“距离”的定义与颜色值和实际相对距离有关。所以这样CRF能够使图片尽量在边界处分割。而全连接条件随机场的不同就在于，二元势函数描述的是每一个像素与其他所有像素的关系，所以叫“全连接”。

关于这一堆公式大家随意理解一下吧… …而直接计算这些公式是比较麻烦的（我想也麻烦），所以一般会使用平均场近似方法进行计算。而平均场近似又是一堆公式，这里我就不给出了（我想大家也不太愿意看），原意了解的同学直接看论文吧。

`CRFas RNN`

最开始使用DenseCRF是直接加在FCN的输出后面，可想这样是比较粗糙的。而且在深度学习中，我们都追求end-to-end的系统，所以CRFasRNN这篇文章将DenseCRF真正结合进了FCN中。这篇文章也使用了平均场近似的方法，因为分解的每一步都是一些相乘相加的计算，和普通的加减（具体公式还是看论文吧），所以可以方便的把每一步描述成一层类似卷积的计算。这样即可结合进神经网络中，并且前后向传播也不存在问题。当然，这里作者还将它进行了迭代，不同次数的迭代得到的结果优化程度也不同（一般取10以内的迭代次数），所以文章才说是as RNN。优化结果如下：

`马尔科夫随机场(MRF)`

在Deep Parsing Network中使用的是MRF，它的公式具体的定义和CRF类似，只不过作者对二元势函数进行了修改： Ψ(yui,yvi)=∑k=1Kλkuk(i,u,j,v)∑?z∈Njd(j,z)pvz 其中，作者加入的λk为label context，因为uk只是定义了两个像素同时出现的频率，而λk可以对一些情况进行惩罚，比如，人可能在桌子旁边，但是在桌子下面的可能性就更小一些。所以这个量可以学习不同情况出现的概率。而原来的距离d(i,j)只定义了两个像素间的关系，作者在这儿加入了个triple penalty，即还引入了j附近的z，这样描述三方关系便于得到更充足的局部上下文。具体结构如下：

这个结构的优点在于：

将平均场构造成了CNN 联合训练并且可以one-pass inference，而不用迭代

`高斯条件随机场(G-CRF)`

这个结构使用CNN分别来学习一元势函数和二元势函数。这样的结构是我们更喜欢的：

而此中的能量函数又不同于之前： E(x)=12xT(A+λI)x?Bx 而当(A+λI)是对称正定时，求E(x)的最小值等于求解：(A+λI)x=B

而G-CRF的优点在于：二次能量有明确全局解线性简便很多

`感悟`

FCN更像一种技巧。随着基本网络（如VGG， ResNet）性能的提升而不断进步。深度学习+概率图模型（GPM）是一种趋势。其实DL说白了就是进行特征提取，而GPM能够从数学理论很好的解释事物本质间的联系。概率图模型的网络化。因为GPM通常不太方便加入DL的模型中，将GPM网络化后能够是GPM参数自学习，同时构成end-to-end的系统。

转载于:https://www.cnblogs.com/YSPXIZHEN/p/11263050.html