摘要:

研究了基于深度卷积神经网络的语义图像分割问题。我们提出了一种新的网络结构,称为标签细化网络,它以一种从粗到细的方式在几个分辨率上预测分割标签。粗分辨率的分割标签与卷积特征一起使用以获得更细分辨率的分割标签。我们在网络的不同阶段定义了损失函数,以提供不同阶段的监督。我们在多个标准数据集上的实验结果表明,该模型提供了一种产生像素级密集图像标记的有效方法

一.引言

一些语义分割工作的常见方法,一是基于结合CNN中多个层的卷积特征,二是使用上采样(也称为反卷积)来放大CNN顶层的特征图的空间尺寸,例如放大到与原始图像相同的空间尺寸,然后从放大的特征图预测像素级的标签。在这两种情况下,最终的全尺寸语义分割结果都是在网络架构的最末端 "一次性 "获得的。

在本文中,我们为语义分割引入了一种新的基于CNN的架构。与以前的方法不同,我们提出的模型以从粗到细的方式预测几个不同分辨率的语义标签。我们使用调整过的ground truth的分割标签作为每个分辨率级别的监督。将粗略尺度上的分割标签与卷积特征相结合,产生更细粒度的分割标签。我们的模型结构图见图1

图1. Label Refinement Network (LRN)网络架构

LRN是基于编码器-解码器框架的。编码器网络产生一系列空间维数递减的特征映射。解码器网络产生随空间维度增加的标签映射。将前面的(较小的)标签映射与实线表示的编码器网络中一层对应的卷积特征相结合,得到一个较大的标签映射。我们使用经过下采样后的ground truth为解码器网络的每个阶段提供监督。

二. 相关工作

介绍了一些前人的工作,略

三. 背景:用于语义分割的编码器-解码器网络

近年来,卷积神经网络在计算机视觉领域取得了很大的成就,大多数基于CNN的语义分割算法都可以用一个通用的编码器-解码器架构来描述。编码器网络通常是一个卷积网络,从输入图像中提取特征。与用于图像分类的CNN类似,编码器网络通常由卷积、子采样(例如通过最大池化)、非线性激活函数(non-linear rectification,个人理解为就是用非线性的激活函数,例如ReLU)等的交替层组成。

CNN的子采样层允许网络提取具有平移不变性(通俗来说,比如检测到图像的右下角有一只猫,即使把这只猫移动到左上角,这只猫还是能被检测出来,这也是参数共享的物理意义)的高级特征。但是这种子采样的操作也减少了特征图的空间维度(一般编码器网络会减少图像的w和h,会增加图像的通道数)

为了产生一个全尺寸的分割结果作为输出,一个相关的解码器网络被应用于编码器网络的输出,以产生具有原始图像空间尺寸的结果。我们的工作与之前的各种研究工作的根本区别主要在于对解码器网络的结构和组成的选择。SegNet中的解码器使用一种没有可学习参数的上采样技术逐步扩大了特征图(至于为什么没有参数:调用相应编码器层处的最大池化索引以进行上采样,其余位置用0补其)。DeconvNet中的解码器也类似,但有可学习的参数。FCN使用单层插值进行解卷积。
在解码器网络的末端,全尺寸的特征图被映射为预测每个像素的类别标签,并定义了一个损失函数来比较预测的标签和真实标签。值得注意的是,该网络只在解码器网络的末端进行预测。因此,监督只发生在整个架构的最后一层。

四. 标签优化网络

在本节中,我们提出了一种新的网络结构,称为标签细化网络(LRN),用于解决密集图像标签问题。LRN体系结构的概述如图1所示,LRN的编码器网络类似于基于VGG16网络的SegNet。LRN的新颖之处在于解码器网络通过在解码器网络的多个阶段(不仅仅是最后一层)添加损耗函数,在网络早期引入监督。

这里介绍一下LRN的思想:经过了编码器网络得到的feature map( f(I) ),虽然获取了图像的高级语义信息,但是空间的精确信息丢失了,所以f(I)并不能直接恢复需要精确到像素级的全尺寸语义分割。但是,f(I)所包含的信息足够其进行粗略的语义分割。那我们就可以用f(I)先生成一个h' * w' 的分割图S(I),这个分割图是比原始图像小的,我们需要足部细化我们的分割图S(I),图1中,从左到右,分割图在逐渐变大,分割的内容也在逐步变得精细。

图2.refinement module(RE)模块的详细说明

RE需要两个输入,一个是Rf,是解码阶段生成的通道维度为kir的粗略标签图。另一个是Mf来自编码器的相应卷积层(我们使用每个阶段的最后一个卷积层,通道数为kir的skip feature map。两者具有相同的空间维度(图中20*20),但是不同的channel维度。为了两者的融合,首先对 Mf 应用一个3*3的卷积和正则化与ReLU操作,得到新的skip 的特征图 mf mf 的channel维度变化成和Rf 一致)。将mf Rf 结合,再进行卷积操作,得到和Rf 维度均一样的R’f ,2倍降采样得到最终的结果R"f

【文献阅读笔记】之Label Refinement Network for Coarse-to-Fine Semantic Segmentation相关推荐

  1. 文献阅读笔记----TieNet: Text-Image Embedding Network

    文献阅读笔记----TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reportin ...

  2. 阅读笔记:Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

    Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation 基于等变注意力机 ...

  3. 货运服务网络设计:经典文献阅读笔记(3)复现Netplan

    **货运服务网络设计:经典文献阅读笔记(2)**提到说要把Crainic T G(1984年)文献使用的模型复现一下,但是文章给出的通用框架还是太笼统,在尝试后决定使用Jacques Roy & ...

  4. [文献阅读笔记]Machine Learning DDoS Detection for Consumer Internet of Things Devices 2018 IEEE SPW

    [文献阅读笔记]Machine Learning DDoS Detection for Consumer Internet of Things Devices 2018 IEEE SPW 1.INTO ...

  5. 语义分割--Label Refinement Network for Coarse-to-Fine Semantic Segmentation

    Label Refinement Network for Coarse-to-Fine Semantic Segmentation https://www.arxiv.org/abs/1703.005 ...

  6. 【知识图谱】本周文献阅读笔记(3)——周二 2023.1.10:英文)知识图谱补全研究综述 + 网络安全知识图谱研究综述 + 知识图谱嵌入模型中的损失函数 + 图神经网络应用于知识图谱推理的研究综述

    声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...

  7. 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

    A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...

  8. 文献阅读笔记:Smart Homes that Monitor Breathing and Heart Rate

    文献阅读笔记:Smart Homes that Monitor Breathing and Heart Rate Fadel Adib Hongzi Mao Zachary Kabelac Dina ...

  9. 《基于区块链技术的虚假新闻检测方法》文献阅读笔记+总结

    <基于区块链技术的虚假新闻检测方法>文献阅读笔记+总结 关键词:区块链.智能合约.虚假新闻.新闻网站.博弈论 来源 题目 时间 作者 中国学术期刊网络版 <基于区块链技术的虚假新闻检 ...

  10. 研究生如何做文献阅读笔记

    ** 研究生如何做文献阅读笔记 ** 研究生如何做文献阅读笔记? 说实在的,我自己也不是很会读书.读书的速度也不快,只是喜欢读书罢了.阅读文献,对于开题期间的研究生和写论文期间的研究生是很重要的功课, ...

最新文章

  1. Springboot总结,核心功能,优缺点
  2. 未来50年的神经科学会是什么样呢?
  3. MLPclassifier,MLP 多层感知器的的缩写(Multi-layer Perceptron)
  4. 手机的次世代竞争年代
  5. cassandra可视化_容器化Spring Data Cassandra应用程序
  6. 在线预览(pptx、ppt、pps、docx、doc、xlsx、xls)
  7. wordpress静态文件加速,整合CDN
  8. html5应用开发大赛
  9. 【数字信号调制】基于matlab GUI PCM编码+QAM调制【含Matlab源码 1095期】
  10. xlsread错误使用matlab,运行显示错误使用xlsread,未找到文件
  11. 计算机博弈六子棋估值函数,六子棋
  12. 如何合并多个工作表或多个工作簿?3种合并方法都在这
  13. Unity脚本设置Animator单个状态的speed
  14. notes服务器标识文件,怎样重新验证将要过期的服务器标识符文件_lotus notes
  15. 计算机连接打印机连接打印机,怎么连接打印机.教您怎么连接打印机
  16. 制作win7 U盘系统启动盘
  17. 大数据是啥?大数据特点 大数据概念
  18. 西南民族大学第十届校赛 题解
  19. 云服务器系统分区,云服务器系统盘可以分区
  20. 中国制造构建全球产业链,是关于价值链的创新

热门文章

  1. linux公社_又一个Linux发行版宣告死亡!曾经是最好的桌面版BSD操作系统
  2. V831——完美的单目测距
  3. POJ 3295: Tautology
  4. linux下编译和安装log4cxx,ubuntu下log4cxx安装使用
  5. 计算机桌面调音量的图标不见了,声音图标不见了,音量图标不见了怎么办?
  6. tomcat示例文件漏洞解决方案
  7. eNews 第二十七期/2007.08
  8. 打败特斯拉!深度起底「偶然亿万富翁」贾跃亭的法拉第野心
  9. android 常用机型尺寸_安卓手机屏幕多大合适?6.4英寸是“黄金尺寸”吗?
  10. Solr分组聚合查询之Facet