deeplab有两篇论文,由于第二篇是在第一篇上增加了一部分内容,就放在一起进行学习了.

第一篇

Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFS

基本信息

这篇是ICLR2015上的一篇文章,所属领域为semantic segmentation.

Abstract

我们发现在DCNN的最后一层的响应没有被足够的定位用于准确的对象分割.这是因为不变性质使DCNNs对high-level任务好. 
我们通过在DCNNs的最后一层连接一个fcCRFs克服这个poor localization.

Introduction

DCNNs的成功可以部分归因于DCNN对局部图像变换的内在不变性,这支持了他们学习数据层次抽象的能力.但是这个不变性对height-level tasks有好处,却妨碍了low-level tasks,例如semantic segmentation.在这类任务中,我们期望精确的定位,而不是空间信息的提取. 
DCNNs用于语义分割的两个困难(downsampling,invariance) 
(1)涉及在标准DCNN的每一层执行的max-pooling和downsampling(“striding”)的重复组合引起的信号分辨率的降低.对于这个问题本文使用’atrous(with holes)’算法,这个算法最初是用于非抽样离散小波变换.这使得DCNN响应的有效密集计算方案比早期解决该问题的方案简单得多.(2)第二个问题涉及从分类器获取面向对象的决策需要对空间变换的不变性,固有地限制了DCNN模型的空间精度.这里使用fcCRFs解决. 
DeepLab的三个优点 
(1)speed,通过atrous(2)精度(3)简单

Related Work

早期的两阶段方法通常使用自下而上的图像分割和基于DCNN的区域分类的级联,前端的分割会存在很大的潜在错误.

CNN for dense image labeling

deeplab把在Imagent上与训练的vgg16分类网络作为一个高效的dense feature extractor,来用于图像语义分割系统. 
使用hole算法的 efficient dense sliding window 特征提取器 
本文转化vgg16的最后两层成为conv,但是这是不够的,因为网络的产出非常稀疏的计算检测分数(步长是32).期望的目标步长是8,因此本文跳过最后两次的max-pooling并修改跟着这两层的conv filter,通过引入0来增加filter的大小,分别是最后三层conv是2x,第一个fc是4x.其实,本文的做法是使conv filter保持不变,令input-stride是2或者4.这个方法叫“hole algorithm”(atrous algorithm)最初是用于ndecimated wavelet transform的.实现上只是修改im2col文件,增加选项用于对bottom层的稀疏采样. 
这里的损失函数是 cross-entropy . 
由于atrous network产生的结果比较光滑,所以直接使用系数为8的二次插值还原到原图像(FCN使用的是需要学习的upsampling layer,原因是产生FCN产生的结果比较粗糙),减少很多计算量. 
控制感受野并加速卷积网络的稠密计算 
本文的方法可以精确的控制感受野的尺寸.通过把第一个fc-conv层filter变为4x4,使得感受也缩小为128x128.并且较少了2-3倍的运行时间.

fcCRF和多尺寸预测

DCNN score map很适合预测可以可靠地预测图像中对象的存在和粗略位置,但不太适合用于指向其精确轮廓.原因是多层max-pooling已经被证明增加不变性和大的感受野,会导致从score map中预测位置比较困难. 
解决这个问题,一个方法是利用multi-layers信息,另一个方法是采用超像素表示,本质上是将本地化任务委托给低级分割方法(这个地方不太明白). 
fcCRFs 
这里先使用fcCRFs解决定位问题. 
CRFs很早已经被用来光滑分割图片的噪声,本质上是用short-range CRFs函数来清除那些基于local hand-engineered features的弱分类器的不正确预测.但是在本文的方法中,已经得到了十分smooth的结果,如果贸然使用CRFs只会对结果又有害,因为本文需要的是recover detailed local structure而不是smooth.于是我们采用了fcCRFs.(fcCRFs可以参考我的另一篇文章) 
Multi-scale prediction 
本文为了提高定位精度,也使用了一种multi-scale的方法,在前四层的每个max-pooling层的输出后加上一个两层的MLP连接到网络的最后一层进行融合. 
当然,这个效果是没办法和fcCRFs比的.

接下来的实验具体细节可以参考原论文.

第二篇

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

主要改进

重新明确使用DCNNs进行语义分割的三个挑战 
(1)特征的分辨率减小(2)目标可能在不同尺度下(3)DCNN的不变性导致定位的精度降低. 
其中(1)(3)在第一篇文章中已经论述过了,挑战(1)使用atrous conv + 线性插值,挑战(3)使用fcCRFs,主要改进是提出了挑战(2),引入了ASPP atrous spatial pyramid pooling,相比还有一种方法是skip-layers ,从多层提取出hyper-column features.

相关资料

  • 参考:http://blog.csdn.net/yxq5997/article/details/53693869
  • 参考:http://www.dongzhuoyao.com/deeplab-semantic-image-segmentation-with-deep-convolutional-nets-atrous-convolution-and-fully-connected-crfs/
  • http://blog.csdn.net/chenyj92/article/details/53448161 这篇文章感受野部分和我理解的一样,与论文中不同.
  • 项目主页(包括源代码):http://liangchiehchen.com/projects/DeepLab.html

【deeplab】Semantic Image Segmentation with Deep Convolutional Nets and Fully相关推荐

  1. 【DeepLab v1 2016】SEMANTIC IMAGE SEGMENTATION WITH DEEP CON- VOLUTIONAL NETS AND FULLY CONNECTED CRFS

    [DeepLab v1]SEMANTIC IMAGE SEGMENTATION WITH DEEP CON- VOLUTIONAL NETS AND FULLY CONNECTED CRFS 用深度卷 ...

  2. Deeplab v1:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

    1.解决问题 将DCNNs应用于图像标记任务中存在两个问题:信号下采样和空间"不敏感性"(不变性)问题. 第一个问题是在标准的DCNNs每一层重复使用最大池化max-pooling ...

  3. 语义分割DeepLab v2--DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolut

    DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Con ...

  4. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记

    DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Con ...

  5. 【工具】Semantic Segmentation Editor 语义分割标注工具

    [工具]Semantic Segmentation Editor 语义分割标注工具 一.简介 二.界面 1.工具栏 ① 上方横排工具栏 Ctrl + Z 撤销 Ctrl + Y 重做 Alt 操纵工具 ...

  6. 【BraTS】Brain Tumor Segmentation 脑部肿瘤分割3--构建数据流

    往期回顾: [BraTS]Brain Tumor Segmentation 脑部肿瘤分割1–数据篇 [BraTS]Brain Tumor Segmentation 脑部肿瘤分割2–UNet的复现 在上 ...

  7. 【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis

    注:拉到最后有视频版~ 论文地址:https://genforce.github.io/higan 这次给大家分享一篇做场景编辑的文章,作者是周博磊老师组的杨策元,中的是 IJCV2020 我会从这五 ...

  8. 【IOG】Interactive Object Segmentation With Inside-Outside Guidance全文翻译

    Interactive Object Segmentation With Inside-Outside Guidance翻译 Abstract ​ 本文探讨了如何在最小化人类交互成本的同时获取精确的对 ...

  9. 【时序分割】【未完成】Greedy Gaussian Segmentation of Multivariate Time Series(贪心高斯时序分割---GGS)

    文章题目:Greedy Gaussian Segmentation of Multivariate Time Series(2018年4月) 作者:David Hallac: Peter Nystru ...

最新文章

  1. DFA在C#中的实现:过滤敏感词
  2. mysql errno : 1146_MySQL_MySQL复制出错 Last_SQL_Errno:1146的解决方法,背景:我们在做数据迁移或者 - phpStudy...
  3. CVPR 2018 《High-speed Tracking with Multi-kernel Correlation Filters》论文笔记
  4. android studio安装Kotlin(零)
  5. Qt4_内置的窗口部件类和对话框类
  6. html基础技术笔记
  7. 你能在windows上创建一个叫做AUX的文件夹吗?
  8. linux反向连接如何免密码,编写受密码保护的反向Shell(Linux x64)
  9. NumPy库--数组的索引和切片
  10. 计算机管理打印机服务,Windows下打印服务器的管理(一)
  11. XYPC一款实用的平面测量控制网平差软件
  12. 那些著名的黑客事件 十二
  13. 服务器配置选择、域名选择、域名解析、域名绑定服务器,ICP免费备案等,此文档配置节约大量时间
  14. C语言高级应用---操作linux下V4L2摄像头应用程序
  15. 云服务器构建微信公众号管理系统
  16. Python3 gevent 报错 RuntimeWarning: greenlet.greenlet size changed
  17. 基于MOD09Q1数据批量计算NDVI
  18. SEE 中的数据结构及之间的关系
  19. 单单训练营 第四期 第一课 做自己的CEO
  20. Android APP开发设计

热门文章

  1. python批量删除特定字符_根据某个特定字符删除一行
  2. HTML 全局属性(global attribute)有哪些?
  3. dubbo2.5.6从下载到编译成功并且部署成功过程
  4. 搞容器,必须考虑这五大安全要素
  5. 【Linux】函数与参数
  6. Maven中的profile和spring boot中的profile进行结合
  7. Android项目实战(四):ViewPager切换动画(3.0版本以上有效果)
  8. Android 网卡地址Mac Wifi文件
  9. 技术网站 --websystique.com
  10. 大失所望:第一次去苹果店“享受”维修服务的经历