学习笔记:图像分割之深度学习场景分割(2015开始)综述之前是手工特征
文献:基于深度学习的场景分割算法研究综述
场景分割:场景图像指面向某个空间的图像,通常具有一定的透视形变,且其中包含的视觉要素数量较多。
文章目录
- 算法性能对比图
- 难点:分割细粒度高、尺度变化多、空间相关性强
- 1 分割细粒度要求
- 2 尺度变化大
- 3 空间相关性强
- 算法优劣一:基于分辨率精细化
- 1 FCN 全卷积神经网路(迁移基于大数据训练的图像识别初始化参数)
- 2 反卷积网络 Segnet(直接对卷积进行镜像操作)
- 3 基于高分辨率语义特征图的场景分割算法
- 1 跨层特征融合
- 2 膨胀卷积算法
- 3 全分辨率残差网路 FRRN
- 算法优劣二:基于多尺度分割
- 1 共享结构算法
- 2 层级结构算法
- 3 并行结构算法
- 4 多尺度特征融合
- 5 自适应学习算法
- 算法优劣三:基于空间上下文的场景分割算法
- 1 基于多维循环神经网络
- 2 基于概率图模型
- 3 基于注意力机制
- 场景分割数据集
- 1 SIFT FLOW
- 2 CamVid
- 3 Barcelona
- 4 Pascal Context (与语义分割数据集不同voc2012)
- 5 Cityscapes
- 算法泛化能力分析
算法性能对比图
难点:分割细粒度高、尺度变化多、空间相关性强
1 分割细粒度要求
场景分割结果需要精确到像素级别,且需要预测精确的分割边界
2 尺度变化大
由于场景图像中通常包含多种类别的视觉要素,不同类别的 视 觉 要 素 往 往 存 在 尺 度 差 异,同时由于场景图像存在透视形变,相同类别视觉要素也会呈现出不同尺度
3 空间相关性强
场景图像中的视觉要素存在复杂而紧密的 空间相关关系,这些空间相关关系对视觉要素的识别和分割具有极大帮助
算法优劣一:基于分辨率精细化
1 FCN 全卷积神经网路(迁移基于大数据训练的图像识别初始化参数)
- 优点:图像分割数据的标注困难,数据量相对少,直接训练导致模型陷入精度较低的局部极小值。通过使用图像识别与训练模型参数,可以学习到较为合适的特征,帮助模型收敛到精度较高的局部极小点,从而提升精度。
- 缺点:图像识别网络通常包含若干个步长 大 于1的 池 化 层.池 化 层 可 以 融 合池化区域的特征,扩大感受野,同时保持感受野中视觉要素的平移不变形.但同时,池化操作会缩小特征图的分辨率,从而丢失空间位置信息和许多细节信息.例如在目前常用的图像识别网络中,通常使用5个步长为2的池化层,使最后的语义特征图分辨率下降为原始输入图像的1?32.当图像识别网络被迁移到全卷积网络中后,语义特征图的分辨率过小和丢失过多细节信息导致分割边界不准确,从而影响了全卷积网络的分割精度
meanIntersection-over-Union,mIoU(交并比均值)=65.3%
2 反卷积网络 Segnet(直接对卷积进行镜像操作)
因为初始化参数是随机的,难以优化
3 基于高分辨率语义特征图的场景分割算法
来自FCN分辨率丢失问题
1 跨层特征融合
- 基于跨层结构的算法主要在“卷积-反卷积”结构的反卷积模块提升语义特征图的分辨率
- 通过融合较浅层的分辨率较大的特征图,提高语义特征图的分辨率,捕捉更多的细节信息,从而提高分割精度
- 使用前两个卷积层的输出做融合
2 膨胀卷积算法
膨胀卷积的算法只对语义特征图进行一定程度的扩大
3 全分辨率残差网路 FRRN
将特征图分辨率始终保持在 原 始 图 像 大 小.该算法借鉴了残差学习的思想,包含2个 信 息 流:残 差 流 和 池 化 流.其 中残差流不包含任何池化和下采样操作,将该流的特征图始终保持在与原始图像相同的分辨率大小;而池化流则包含若干步长为2的池化操作,特征图的分辨率先减小后增大.残差流侧重于捕捉细节信息,主要用于确定精确的分割边界;而池化流则侧重于学习语义特征,主要用于识别视觉要素的类别.残差流和池化流在网络的前向传播过程中不断进行交互,从而使全分辨率残差网络可以同时学习语义特征和捕捉细节信息,因此可以获得更加精确的分割结果.FRRN 在 Cityscapes数 据 集 取 得 的 mIoU 为71.8%.但全分辨率残差网络也有其局限性.由 于 残差流始终保持在原始图像的分辨率,因此其维度较高,会占用大量 的 显 存 空 间.同 时,残差流和池化流的交互操作也 会 产 生 大 量 的 空 间 消 耗.这 都 制 约 了全分辨率残差网络在高分辨率场景图像中的使用.
算法优劣二:基于多尺度分割
1 共享结构算法
2 层级结构算法
3 并行结构算法
4 多尺度特征融合
5 自适应学习算法
算法优劣三:基于空间上下文的场景分割算法
1 基于多维循环神经网络
2 基于概率图模型
3 基于注意力机制
场景分割数据集
1 SIFT FLOW
SIFTFlow 数据 集[51]中 的 图 像 由8种 典 型 的户外场景组成.该数据集共包含2688个图像样本,其中2488个训练样本、200个 测 试 样 本,每 个 图 像的分辨率为256×256.同时数据集中包含33个语义类别的像素 级 人 工 标 注.SIFTFlow 数 据 集 的 图 像分辨率较小,场景比较简单,类别数和图像数量较少.
2 CamVid
CamVid数据集[86]中 的 图 像 均 采 集 于 街 景,包括701 个 街 景 图 像,其 中 包 括 468 个 训 练 图 像 和233个 测 试 图 像.每 个 图 像 样 本 的 分 辨 率 为 960×720,并 且 包 含 11 个 语 义 类 别 的 像 素 级 人 工 标 记.CamVid数据集的类别数和图像数量较少,但 图 像分辨率相对较大,场景针对于街景,对自动驾驶相关技术具有极大意义.
3 Barcelona
Barcelona数据集[87]由14871个训练图像样本和279个测试 图 像 样 本 组 成.其 中 训 练 图 像 采 集 于室内和室外场景,而测试图像均采集于巴塞罗那的街道场景.该数据集中不同图像样本的分辨率不同,并且包含170个语义类别的像素级人工标记.
4 Pascal Context (与语义分割数据集不同voc2012)
VOC数据集[89]为基础建立的.原始 PASCALVOC数据集仅标注了前景视觉要素的类别,而 PASCALContext数据集 还 提 供 了 背 景 视 觉 要 素 的 类 别,因此更加适 合 于 场 景 分 割 算 法.PASCALContext数据集包括4998个 训 练 图 像 样 本 和5105个 测 试 图像样本,每个图 像 样 本 的 分 辨 率 不 超 过500×500,并被 标 记 为 59 个 类 别 和 1 个 其 他 类.相 比 原 始PASCAL VOC 数 据 集,PASCAL Context数 据 集包含的图像样本和类别数量更多,难度也更大.
5 Cityscapes
Cityscapes数据集[53]中的图像是利用车载摄像头采集的欧洲城市的街景.该数据集包含共5000个图像样本,划分为2975个 训 练 图 像 样 本、500个 验证图像样本和1525个测试图像样本.数据集中包含19个类别的像素级的人工标注,其中每个图像样本的分辨 率 为2048×1024.Cityscapes数 据 集 针 对 于街道场景,包含的图像样本数量和类别数较少,但图
像的分辨率较大,这就需要在设计算法时同时兼顾算法速度和性能,对自动驾驶相关技术具有重大的意义,是目前评测深度学习场景分割算法常用的数据集之一.
算法泛化能力分析
1)算法在不同数据集的泛化能力;
2)算法在不同任务的 泛 化 能 力
学习笔记:图像分割之深度学习场景分割(2015开始)综述之前是手工特征相关推荐
- 学习笔记之——基于深度学习的图像超分辨率重建
最近开展图像超分辨率( Image Super Resolution)方面的研究,做了一些列的调研,并结合本人的理解总结成本博文~(本博文仅用于本人的学习笔记,不做商业用途) 本博文涉及的paper已 ...
- CS230(DeepLearning)Leture2的学习笔记(2)之深度学习
CS230_Leture2的学习笔记2之深度学习 我们先来回顾下第二章的学习目标: 而对于第二章Week1的学习目标已经完成,具体学习内容参考博主另一篇博客,站内搜索 CS230(Dee ...
- 【学习笔记】Pytorch深度学习—Batch Normalization
[学习笔记]Pytorch深度学习-Batch Normalization Batch Normalization概念 `Batch Normalization ` `Batch Normalizat ...
- 学习笔记之——基于深度学习的目标检测算法
国庆假期闲来无事~又正好打算入门基于深度学习的视觉检测领域,就利用这个时间来写一份学习的博文~本博文主要是本人的学习笔记与调研报告(不涉及商业用途),博文的部分来自我团队的几位成员的调研报告(由于隐私 ...
- 吴恩达深度学习笔记——神经网络与深度学习(Neural Networks and Deep Learning)
文章目录 前言 传送门 神经网络与深度学习(Neural Networks and Deep Learning) 绪论 梯度下降法与二分逻辑回归(Gradient Descend and Logist ...
- CS230(DeepLearning)Leture2的学习笔记(1)之深度学习简介
CS230_Lecture2的学习笔记_1 [Leture2_1](http://cs230.stanford.edu/files/C1M1.pdf) Leture2_1 本节讲义主要是针对深度学习做 ...
- 吴恩达深度学习笔记1-Course1-Week1【深度学习概论】
2018.5.7 吴恩达深度学习视频教程网址 网易云课堂:https://mooc.study.163.com/smartSpec/detail/1001319001.htm Coursera:htt ...
- 吴恩达深度学习笔记5-Course2-Week1【深度学习的实用层面】
改善深层神经网络:超参数调试.正则化以及优化 深度学习的实用层面 一.训练.验证.测试集 样本数据分成以下三个部分: 训练集(train set): 用于对模型进行训练. 验证集(hold-out c ...
- DeepLearningAI 学习笔记 1.1 深度学习概论
1.1 深度学习概论 视频:第一周 深度学习概论 整理:飞龙 什么是神经网络? "深度学习"指的是训练神经网络,有时候规模很大,那么神经网络究竟是什么呢?在这个视频中,我会讲些直观 ...
最新文章
- linux操作系统项目化教程课后答案,完整版Linux操作系统及应用项目教程习题答案(13页)-原创力文档...
- SQL Server数据文件迁移
- java 数组地图绘画_Java将地图转换为数组[Snippet]
- C++学习之路 | PTA乙级—— 1051 复数乘法 (15 分)(精简)
- js获取html元素并且修改属性,JavaScript中获取和修改元素属性的值
- 牛客网多校第9场 E	Music Game 【思维+数学期望】
- C++重载->和*运算符
- linux防火墙知识,Iptables防火墙 基础知识
- 正则表达式之常用量词
- 矢量绘图软件 android,sai绘图软件官方
- 图形 2.6 伽马校正
- 看完这篇Linux基本的操作就会了 1
- php模拟用户自动在qq空间发表文章的方法
- [足式机器人]Part1 三维空间中的跳行Ch03——【Legged Robots that Balance 读书笔记】
- tomcat7的下载和安装配置
- T-Pot安装教程(保证能运行,附安装需要的所有东西清单)
- 只有程序员才能看懂的趣图,第二个我就忍不住了哈哈哈哈!
- Android应用数据备份
- 【转】定员108的车厢号码分布图
- 韩国仁川机场乐天免税店买买买!
热门文章
- 正版 Windows 10安装教程
- 如何了解用户和需求?
- 解决Outlook打不开邮件里的链接的方法
- Brew doctor warns about “Warning: A newer Command Line Tools release is available”
- dell win10忘记密码怎么办
- 【STL】11 list容器操作
- android测试内存的软件下载,AndroBench p10内存门app下载
- 波士顿房价预测python决策树_波士顿房价预测 - 最简单入门机器学习 - Jupyter
- st公司stm32MCU,cubemx创建工程,Drivers文件夹下内容不可见问题的描述与粗略解决方法
- MYSQL的开题报告题目,开题报告的选题意义.docx