文献:基于深度学习的场景分割算法研究综述
场景分割:场景图像指面向某个空间的图像,通常具有一定的透视形变,且其中包含的视觉要素数量较多。

文章目录

  • 算法性能对比图
  • 难点:分割细粒度高、尺度变化多、空间相关性强
    • 1 分割细粒度要求
    • 2 尺度变化大
    • 3 空间相关性强
  • 算法优劣一:基于分辨率精细化
    • 1 FCN 全卷积神经网路(迁移基于大数据训练的图像识别初始化参数)
    • 2 反卷积网络 Segnet(直接对卷积进行镜像操作)
    • 3 基于高分辨率语义特征图的场景分割算法
      • 1 跨层特征融合
      • 2 膨胀卷积算法
      • 3 全分辨率残差网路 FRRN
  • 算法优劣二:基于多尺度分割
    • 1 共享结构算法
    • 2 层级结构算法
    • 3 并行结构算法
    • 4 多尺度特征融合
    • 5 自适应学习算法
  • 算法优劣三:基于空间上下文的场景分割算法
    • 1 基于多维循环神经网络
    • 2 基于概率图模型
    • 3 基于注意力机制
  • 场景分割数据集
    • 1 SIFT FLOW
    • 2 CamVid
    • 3 Barcelona
    • 4 Pascal Context (与语义分割数据集不同voc2012)
    • 5 Cityscapes
  • 算法泛化能力分析

算法性能对比图

难点:分割细粒度高、尺度变化多、空间相关性强

1 分割细粒度要求

场景分割结果需要精确到像素级别,且需要预测精确的分割边界

2 尺度变化大

由于场景图像中通常包含多种类别的视觉要素,不同类别的 视 觉 要 素 往 往 存 在 尺 度 差 异,同时由于场景图像存在透视形变,相同类别视觉要素也会呈现出不同尺度

3 空间相关性强

场景图像中的视觉要素存在复杂而紧密的 空间相关关系,这些空间相关关系对视觉要素的识别和分割具有极大帮助

算法优劣一:基于分辨率精细化

1 FCN 全卷积神经网路(迁移基于大数据训练的图像识别初始化参数)

  1. 优点:图像分割数据的标注困难,数据量相对少,直接训练导致模型陷入精度较低的局部极小值。通过使用图像识别与训练模型参数,可以学习到较为合适的特征,帮助模型收敛到精度较高的局部极小点,从而提升精度。
  2. 缺点:图像识别网络通常包含若干个步长 大 于1的 池 化 层.池 化 层 可 以 融 合池化区域的特征,扩大感受野,同时保持感受野中视觉要素的平移不变形.但同时,池化操作会缩小特征图的分辨率,从而丢失空间位置信息和许多细节信息.例如在目前常用的图像识别网络中,通常使用5个步长为2的池化层,使最后的语义特征图分辨率下降为原始输入图像的1?32.当图像识别网络被迁移到全卷积网络中后,语义特征图的分辨率过小和丢失过多细节信息导致分割边界不准确,从而影响了全卷积网络的分割精度

    meanIntersection-over-Union,mIoU(交并比均值)=65.3%

2 反卷积网络 Segnet(直接对卷积进行镜像操作)

因为初始化参数是随机的,难以优化

3 基于高分辨率语义特征图的场景分割算法

来自FCN分辨率丢失问题

1 跨层特征融合

  1. 基于跨层结构的算法主要在“卷积-反卷积”结构的反卷积模块提升语义特征图的分辨率
  2. 通过融合较浅层的分辨率较大的特征图,提高语义特征图的分辨率,捕捉更多的细节信息,从而提高分割精度
  3. 使用前两个卷积层的输出做融合

2 膨胀卷积算法


膨胀卷积的算法只对语义特征图进行一定程度的扩大

3 全分辨率残差网路 FRRN

将特征图分辨率始终保持在 原 始 图 像 大 小.该算法借鉴了残差学习的思想,包含2个 信 息 流:残 差 流 和 池 化 流.其 中残差流不包含任何池化和下采样操作,将该流的特征图始终保持在与原始图像相同的分辨率大小;而池化流则包含若干步长为2的池化操作,特征图的分辨率先减小后增大.残差流侧重于捕捉细节信息,主要用于确定精确的分割边界;而池化流则侧重于学习语义特征,主要用于识别视觉要素的类别.残差流和池化流在网络的前向传播过程中不断进行交互,从而使全分辨率残差网络可以同时学习语义特征和捕捉细节信息,因此可以获得更加精确的分割结果.FRRN 在 Cityscapes数 据 集 取 得 的 mIoU 为71.8%.但全分辨率残差网络也有其局限性.由 于 残差流始终保持在原始图像的分辨率,因此其维度较高,会占用大量 的 显 存 空 间.同 时,残差流和池化流的交互操作也 会 产 生 大 量 的 空 间 消 耗.这 都 制 约 了全分辨率残差网络在高分辨率场景图像中的使用.

算法优劣二:基于多尺度分割

1 共享结构算法

2 层级结构算法

3 并行结构算法

4 多尺度特征融合

5 自适应学习算法

算法优劣三:基于空间上下文的场景分割算法

1 基于多维循环神经网络

2 基于概率图模型

3 基于注意力机制

场景分割数据集

1 SIFT FLOW

SIFTFlow 数据 集[51]中 的 图 像 由8种 典 型 的户外场景组成.该数据集共包含2688个图像样本,其中2488个训练样本、200个 测 试 样 本,每 个 图 像的分辨率为256×256.同时数据集中包含33个语义类别的像素 级 人 工 标 注.SIFTFlow 数 据 集 的 图 像分辨率较小,场景比较简单,类别数和图像数量较少.

2 CamVid

CamVid数据集[86]中 的 图 像 均 采 集 于 街 景,包括701 个 街 景 图 像,其 中 包 括 468 个 训 练 图 像 和233个 测 试 图 像.每 个 图 像 样 本 的 分 辨 率 为 960×720,并 且 包 含 11 个 语 义 类 别 的 像 素 级 人 工 标 记.CamVid数据集的类别数和图像数量较少,但 图 像分辨率相对较大,场景针对于街景,对自动驾驶相关技术具有极大意义.

3 Barcelona

Barcelona数据集[87]由14871个训练图像样本和279个测试 图 像 样 本 组 成.其 中 训 练 图 像 采 集 于室内和室外场景,而测试图像均采集于巴塞罗那的街道场景.该数据集中不同图像样本的分辨率不同,并且包含170个语义类别的像素级人工标记.

4 Pascal Context (与语义分割数据集不同voc2012)

VOC数据集[89]为基础建立的.原始 PASCALVOC数据集仅标注了前景视觉要素的类别,而 PASCALContext数据集 还 提 供 了 背 景 视 觉 要 素 的 类 别,因此更加适 合 于 场 景 分 割 算 法.PASCALContext数据集包括4998个 训 练 图 像 样 本 和5105个 测 试 图像样本,每个图 像 样 本 的 分 辨 率 不 超 过500×500,并被 标 记 为 59 个 类 别 和 1 个 其 他 类.相 比 原 始PASCAL VOC 数 据 集,PASCAL Context数 据 集包含的图像样本和类别数量更多,难度也更大.

5 Cityscapes

Cityscapes数据集[53]中的图像是利用车载摄像头采集的欧洲城市的街景.该数据集包含共5000个图像样本,划分为2975个 训 练 图 像 样 本、500个 验证图像样本和1525个测试图像样本.数据集中包含19个类别的像素级的人工标注,其中每个图像样本的分辨 率 为2048×1024.Cityscapes数 据 集 针 对 于街道场景,包含的图像样本数量和类别数较少,但图
像的分辨率较大,这就需要在设计算法时同时兼顾算法速度和性能,对自动驾驶相关技术具有重大的意义,是目前评测深度学习场景分割算法常用的数据集之一.

算法泛化能力分析

1)算法在不同数据集的泛化能力;
2)算法在不同任务的 泛 化 能 力

学习笔记:图像分割之深度学习场景分割(2015开始)综述之前是手工特征相关推荐

  1. 学习笔记之——基于深度学习的图像超分辨率重建

    最近开展图像超分辨率( Image Super Resolution)方面的研究,做了一些列的调研,并结合本人的理解总结成本博文~(本博文仅用于本人的学习笔记,不做商业用途) 本博文涉及的paper已 ...

  2. CS230(DeepLearning)Leture2的学习笔记(2)之深度学习

    CS230_Leture2的学习笔记2之深度学习 我们先来回顾下第二章的学习目标:        而对于第二章Week1的学习目标已经完成,具体学习内容参考博主另一篇博客,站内搜索 CS230(Dee ...

  3. 【学习笔记】Pytorch深度学习—Batch Normalization

    [学习笔记]Pytorch深度学习-Batch Normalization Batch Normalization概念 `Batch Normalization ` `Batch Normalizat ...

  4. 学习笔记之——基于深度学习的目标检测算法

    国庆假期闲来无事~又正好打算入门基于深度学习的视觉检测领域,就利用这个时间来写一份学习的博文~本博文主要是本人的学习笔记与调研报告(不涉及商业用途),博文的部分来自我团队的几位成员的调研报告(由于隐私 ...

  5. 吴恩达深度学习笔记——神经网络与深度学习(Neural Networks and Deep Learning)

    文章目录 前言 传送门 神经网络与深度学习(Neural Networks and Deep Learning) 绪论 梯度下降法与二分逻辑回归(Gradient Descend and Logist ...

  6. CS230(DeepLearning)Leture2的学习笔记(1)之深度学习简介

    CS230_Lecture2的学习笔记_1 [Leture2_1](http://cs230.stanford.edu/files/C1M1.pdf) Leture2_1 本节讲义主要是针对深度学习做 ...

  7. 吴恩达深度学习笔记1-Course1-Week1【深度学习概论】

    2018.5.7 吴恩达深度学习视频教程网址 网易云课堂:https://mooc.study.163.com/smartSpec/detail/1001319001.htm Coursera:htt ...

  8. 吴恩达深度学习笔记5-Course2-Week1【深度学习的实用层面】

    改善深层神经网络:超参数调试.正则化以及优化 深度学习的实用层面 一.训练.验证.测试集 样本数据分成以下三个部分: 训练集(train set): 用于对模型进行训练. 验证集(hold-out c ...

  9. DeepLearningAI 学习笔记 1.1 深度学习概论

    1.1 深度学习概论 视频:第一周 深度学习概论 整理:飞龙 什么是神经网络? "深度学习"指的是训练神经网络,有时候规模很大,那么神经网络究竟是什么呢?在这个视频中,我会讲些直观 ...

最新文章

  1. linux操作系统项目化教程课后答案,完整版Linux操作系统及应用项目教程习题答案(13页)-原创力文档...
  2. SQL Server数据文件迁移
  3. java 数组地图绘画_Java将地图转换为数组[Snippet]
  4. C++学习之路 | PTA乙级—— 1051 复数乘法 (15 分)(精简)
  5. js获取html元素并且修改属性,JavaScript中获取和修改元素属性的值
  6. 牛客网多校第9场 E Music Game 【思维+数学期望】
  7. C++重载->和*运算符
  8. linux防火墙知识,Iptables防火墙 基础知识
  9. 正则表达式之常用量词
  10. 矢量绘图软件 android,sai绘图软件官方
  11. 图形 2.6 伽马校正
  12. 看完这篇Linux基本的操作就会了 1
  13. php模拟用户自动在qq空间发表文章的方法
  14. [足式机器人]Part1 三维空间中的跳行Ch03——【Legged Robots that Balance 读书笔记】
  15. tomcat7的下载和安装配置
  16. T-Pot安装教程(保证能运行,附安装需要的所有东西清单)
  17. 只有程序员才能看懂的趣图,第二个我就忍不住了哈哈哈哈!
  18. Android应用数据备份
  19. 【转】定员108的车厢号码分布图
  20. 韩国仁川机场乐天免税店买买买!

热门文章

  1. 正版 Windows 10安装教程
  2. 如何了解用户和需求?
  3. 解决Outlook打不开邮件里的链接的方法
  4. Brew doctor warns about “Warning: A newer Command Line Tools release is available”
  5. dell win10忘记密码怎么办
  6. 【STL】11 list容器操作
  7. android测试内存的软件下载,AndroBench p10内存门app下载
  8. 波士顿房价预测python决策树_波士顿房价预测 - 最简单入门机器学习 - Jupyter
  9. st公司stm32MCU,cubemx创建工程,Drivers文件夹下内容不可见问题的描述与粗略解决方法
  10. MYSQL的开题报告题目,开题报告的选题意义.docx