文献：基于深度学习的场景分割算法研究综述
场景分割：场景图像指面向某个空间的图像，通常具有一定的透视形变，且其中包含的视觉要素数量较多。

文章目录

算法性能对比图
难点：分割细粒度高、尺度变化多、空间相关性强
- 1 分割细粒度要求
- 2 尺度变化大
- 3 空间相关性强
算法优劣一：基于分辨率精细化
- 1 FCN 全卷积神经网路（迁移基于大数据训练的图像识别初始化参数）
- 2 反卷积网络 Segnet（直接对卷积进行镜像操作）
- 3 基于高分辨率语义特征图的场景分割算法
- - 1 跨层特征融合
  - 2 膨胀卷积算法
  - 3 全分辨率残差网路 FRRN
算法优劣二：基于多尺度分割
- 1 共享结构算法
- 2 层级结构算法
- 3 并行结构算法
- 4 多尺度特征融合
- 5 自适应学习算法
算法优劣三：基于空间上下文的场景分割算法
- 1 基于多维循环神经网络
- 2 基于概率图模型
- 3 基于注意力机制
场景分割数据集
- 1 SIFT FLOW
- 2 CamVid
- 3 Barcelona
- 4 Pascal Context （与语义分割数据集不同voc2012）
- 5 Cityscapes
算法泛化能力分析

算法性能对比图

难点：分割细粒度高、尺度变化多、空间相关性强

1 分割细粒度要求

场景分割结果需要精确到像素级别，且需要预测精确的分割边界

2 尺度变化大

由于场景图像中通常包含多种类别的视觉要素，不同类别的视觉要素往往存在尺度差异，同时由于场景图像存在透视形变，相同类别视觉要素也会呈现出不同尺度

3 空间相关性强

场景图像中的视觉要素存在复杂而紧密的空间相关关系，这些空间相关关系对视觉要素的识别和分割具有极大帮助

算法优劣一：基于分辨率精细化

1 FCN 全卷积神经网路（迁移基于大数据训练的图像识别初始化参数）

优点：图像分割数据的标注困难，数据量相对少，直接训练导致模型陷入精度较低的局部极小值。通过使用图像识别与训练模型参数，可以学习到较为合适的特征，帮助模型收敛到精度较高的局部极小点，从而提升精度。
缺点：图像识别网络通常包含若干个步长大于１的池化层．池化层可以融合池化区域的特征，扩大感受野，同时保持感受野中视觉要素的平移不变形．但同时，池化操作会缩小特征图的分辨率，从而丢失空间位置信息和许多细节信息．例如在目前常用的图像识别网络中，通常使用５个步长为２的池化层，使最后的语义特征图分辨率下降为原始输入图像的１?３２．当图像识别网络被迁移到全卷积网络中后，语义特征图的分辨率过小和丢失过多细节信息导致分割边界不准确，从而影响了全卷积网络的分割精度

ｍｅａｎＩｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ，ｍＩｏＵ（交并比均值）=65.3%

2 反卷积网络 Segnet（直接对卷积进行镜像操作）

因为初始化参数是随机的，难以优化

3 基于高分辨率语义特征图的场景分割算法

来自FCN分辨率丢失问题

1 跨层特征融合

基于跨层结构的算法主要在“卷积－反卷积”结构的反卷积模块提升语义特征图的分辨率
通过融合较浅层的分辨率较大的特征图，提高语义特征图的分辨率，捕捉更多的细节信息，从而提高分割精度
使用前两个卷积层的输出做融合

2 膨胀卷积算法

膨胀卷积的算法只对语义特征图进行一定程度的扩大

3 全分辨率残差网路 FRRN

将特征图分辨率始终保持在原始图像大小．该算法借鉴了残差学习的思想，包含２个信息流：残差流和池化流．其中残差流不包含任何池化和下采样操作，将该流的特征图始终保持在与原始图像相同的分辨率大小；而池化流则包含若干步长为２的池化操作，特征图的分辨率先减小后增大．残差流侧重于捕捉细节信息，主要用于确定精确的分割边界；而池化流则侧重于学习语义特征，主要用于识别视觉要素的类别．残差流和池化流在网络的前向传播过程中不断进行交互，从而使全分辨率残差网络可以同时学习语义特征和捕捉细节信息，因此可以获得更加精确的分割结果．ＦＲＲＮ在Ｃｉｔｙｓｃａｐｅｓ数据集取得的ｍＩｏＵ为７１．８％．但全分辨率残差网络也有其局限性．由于残差流始终保持在原始图像的分辨率，因此其维度较高，会占用大量的显存空间．同时，残差流和池化流的交互操作也会产生大量的空间消耗．这都制约了全分辨率残差网络在高分辨率场景图像中的使用．

算法优劣二：基于多尺度分割

1 共享结构算法

2 层级结构算法

3 并行结构算法

4 多尺度特征融合

5 自适应学习算法

算法优劣三：基于空间上下文的场景分割算法

1 基于多维循环神经网络

2 基于概率图模型

3 基于注意力机制

场景分割数据集

1 SIFT FLOW

ＳＩＦＴＦｌｏｗ数据集［５１］中的图像由８种典型的户外场景组成．该数据集共包含２６８８个图像样本，其中２４８８个训练样本、２００个测试样本，每个图像的分辨率为２５６×２５６．同时数据集中包含３３个语义类别的像素级人工标注．ＳＩＦＴＦｌｏｗ数据集的图像分辨率较小，场景比较简单，类别数和图像数量较少．

2 CamVid

ＣａｍＶｉｄ数据集［８６］中的图像均采集于街景，包括７０１个街景图像，其中包括４６８个训练图像和２３３个测试图像．每个图像样本的分辨率为９６０×７２０，并且包含１１个语义类别的像素级人工标记．ＣａｍＶｉｄ数据集的类别数和图像数量较少，但图像分辨率相对较大，场景针对于街景，对自动驾驶相关技术具有极大意义．

3 Barcelona

Ｂａｒｃｅｌｏｎａ数据集［８７］由１４８７１个训练图像样本和２７９个测试图像样本组成．其中训练图像采集于室内和室外场景，而测试图像均采集于巴塞罗那的街道场景．该数据集中不同图像样本的分辨率不同，并且包含１７０个语义类别的像素级人工标记．

4 Pascal Context （与语义分割数据集不同voc2012）

ＶＯＣ数据集［８９］为基础建立的．原始ＰＡＳＣＡＬＶＯＣ数据集仅标注了前景视觉要素的类别，而ＰＡＳＣＡＬＣｏｎｔｅｘｔ数据集还提供了背景视觉要素的类别，因此更加适合于场景分割算法．ＰＡＳＣＡＬＣｏｎｔｅｘｔ数据集包括４９９８个训练图像样本和５１０５个测试图像样本，每个图像样本的分辨率不超过５００×５００，并被标记为５９个类别和１个其他类．相比原始ＰＡＳＣＡＬＶＯＣ数据集，ＰＡＳＣＡＬＣｏｎｔｅｘｔ数据集包含的图像样本和类别数量更多，难度也更大．

5 Cityscapes

Ｃｉｔｙｓｃａｐｅｓ数据集［５３］中的图像是利用车载摄像头采集的欧洲城市的街景．该数据集包含共５０００个图像样本，划分为２９７５个训练图像样本、５００个验证图像样本和１５２５个测试图像样本．数据集中包含１９个类别的像素级的人工标注，其中每个图像样本的分辨率为２０４８×１０２４．Ｃｉｔｙｓｃａｐｅｓ数据集针对于街道场景，包含的图像样本数量和类别数较少，但图
像的分辨率较大，这就需要在设计算法时同时兼顾算法速度和性能，对自动驾驶相关技术具有重大的意义，是目前评测深度学习场景分割算法常用的数据集之一．

算法泛化能力分析

１）算法在不同数据集的泛化能力；
２）算法在不同任务的泛化能力

学习笔记：图像分割之深度学习场景分割(2015开始)综述之前是手工特征相关推荐

学习笔记之——基于深度学习的图像超分辨率重建
最近开展图像超分辨率( Image Super Resolution)方面的研究,做了一些列的调研,并结合本人的理解总结成本博文~(本博文仅用于本人的学习笔记,不做商业用途) 本博文涉及的paper已 ...
CS230(DeepLearning)Leture2的学习笔记(2)之深度学习
CS230_Leture2的学习笔记2之深度学习我们先来回顾下第二章的学习目标: 而对于第二章Week1的学习目标已经完成,具体学习内容参考博主另一篇博客,站内搜索 CS230(Dee ...
【学习笔记】Pytorch深度学习—Batch Normalization
[学习笔记]Pytorch深度学习-Batch Normalization Batch Normalization概念 `Batch Normalization ` `Batch Normalizat ...
学习笔记之——基于深度学习的目标检测算法
国庆假期闲来无事~又正好打算入门基于深度学习的视觉检测领域,就利用这个时间来写一份学习的博文~本博文主要是本人的学习笔记与调研报告(不涉及商业用途),博文的部分来自我团队的几位成员的调研报告(由于隐私 ...
吴恩达深度学习笔记——神经网络与深度学习（Neural Networks and Deep Learning）
文章目录前言传送门神经网络与深度学习(Neural Networks and Deep Learning) 绪论梯度下降法与二分逻辑回归(Gradient Descend and Logist ...
CS230(DeepLearning)Leture2的学习笔记(1)之深度学习简介
CS230_Lecture2的学习笔记_1 [Leture2_1](http://cs230.stanford.edu/files/C1M1.pdf) Leture2_1 本节讲义主要是针对深度学习做 ...
吴恩达深度学习笔记1-Course1-Week1【深度学习概论】
2018.5.7 吴恩达深度学习视频教程网址网易云课堂:https://mooc.study.163.com/smartSpec/detail/1001319001.htm Coursera:htt ...
吴恩达深度学习笔记5-Course2-Week1【深度学习的实用层面】
改善深层神经网络:超参数调试.正则化以及优化深度学习的实用层面一.训练.验证.测试集样本数据分成以下三个部分: 训练集(train set): 用于对模型进行训练. 验证集(hold-out c ...
DeepLearningAI 学习笔记 1.1 深度学习概论
1.1 深度学习概论视频:第一周深度学习概论整理:飞龙什么是神经网络? "深度学习"指的是训练神经网络,有时候规模很大,那么神经网络究竟是什么呢?在这个视频中,我会讲些直观 ...

学习笔记：图像分割之深度学习场景分割(2015开始)综述之前是手工特征