语义分割是指将图像中的每个像素归于类标签的过程,这些类标签可以包括一个人、汽车、鲜花、一件家具等。

我们可以将语义分割认为是像素级别的图像分类。例如,在有许多汽车的图像中,分割会将所有对象标记为汽车对象。然后,一个称为实例分割的模型能够标记一个出现在图像中的物体的独立实例。这种分割在计算对象数量的应用程序中非常有用,例如计算商城的行人流量。

它的一些主要应用是在自动驾驶、人机交互、机器人和照片编辑/创意工具中。例如,语义分割在汽车自动驾驶和机器人技术中是至关重要的,因为对于一个模型来说,了解其所处环境中的语义信息是非常重要的。

图源:http://www.cs.toronto.edu/~tingwuwang/semantic_segmentation.pdf

我们来看看一些涵盖最先进的构建语义分割模型方法的研究论文,即:

  • Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (用于语义分割的弱监督和半监督的深度神经网络)

  • Fully Convolutional Networks for Semantic Segmentation (用于语义分割的全卷积神经网络)

  • U-Net: Convolutional Networks for Biomedical Image Segmentation (用于生物医学图像的语义分割卷积神经网络)

  • The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation (用于语义分割的全卷积DenseNet)

  • Multi-Scale Context Aggregation by Dilated Convolutions (基于扩张卷积的多尺度上下文聚合)

  • DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs(DeepLab: 使用深度神经网络,空洞卷积,和全连接CRF做语义分割的网络)

  • Rethinking Atrous Convolution for Semantic Image Segmentation(语义分割中的空洞卷积的再思考)

  • Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation( 空间金字塔池化模块和编码-解码结构用于语义分割的深度网络结构.)

  • FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation(Fast FCN:对语义分割分割后端的空洞卷积的再思考)

  • Improving Semantic Segmentation via Video Propagation and Label Relaxation(通过视频传播和标签松弛改善语义分割)

  • Gated-SCNN: Gated Shape CNNs for Semantic Segmentation(门控-SCNN: 用于语义分割的门控形状卷积神经网络)

以上论文链接可点击此处访问。

01. 用于语义图像分割的深度神经网络弱和半监督学习(ICCV,2015)

这篇文章提出了一种解决方法,用于面对深度卷积网络中处理弱标记数据的难题、以及处理良好标记与未适当标记数据结合。

本文应用了一个深度CNNs与全连接条件随机场的组合。

用于语义分割的DCNN弱和半监督学习(https://arxiv.org/abs/1502.02734)

在PASCAL VOC分割基准中,这个模型给出了超过70%的平均IoU。这种模型的一个主要难题是它在训练时需要在像素层次标记的图像。

这篇文章的主要贡献在于:

  • 引入弱监督和半监督设定都适用的期望最大化算法来用于边界框或图像层次的训练;

  • 证明弱与强标记的组合能够改善性能,在合并MSCOCO数据集和PASCAL数据集的标记后,论文作者在PASCAL VOC2012上获得73.9%的IoU;

  • 证明通过合并少量像素级标记图像和大量边框或图像级标注图像获得了更好的性能。

02. 用于语义分割的全卷积网络(PAMI,2016)

用于语义分割的全卷积网络(https://arxiv.org/abs/1605.06211)

这篇文章提出的模型在PASCAL VOC 2012上取得了67.2%的平均IU。

全连接网络输入任意大小的图像,生成一个对应空间维度的输出。在这个模型中,ILSVRC分类器被转换成一个全连接网络,并使用逐像素损失和网络内上采样强化来进行密集预测,之后对分割的训练就通过fine-tuning完成。Fine-tuning是在整个网络上进行反向传播完成的。

03. U-Net:用于生物医学图像分割的卷积网络

在生物医学图像处理中,获得图像中每个细胞的类别标签至关重要。而生物医学任务中最大的挑战就在于难以获得数以千计的图像来用于训练。

U-Net:用于医学图像分割的卷积网络(https://arxiv.org/abs/1505.04597)

这篇文章构建在全卷积层之上,并将其修改使其在一些训练图像上有效并产出更精确的分割。

因为只能获得很少的训练数据,这个模型在已有数据上应用弹性变形来对数据增强。就如上面图1中所示,网络架构由左侧的收缩路径和右侧的膨胀路径组成。

收缩路径由两个 3x3 卷积组成,每个卷积后面都跟一个修正线性单元和一个用于下采样的 2x2 最大池化。每个下采样阶段都多使特征通道数加倍。膨胀路径步骤中包含一个特征通道的上采样。这后面跟着将特征通道数减半的 2x2 上卷积。最后一层是一个将成分特征向量映射到要求类别数的 1x1 卷积。

在这个模型中,训练使用输入图像——它们的分割图,和一个Caffe实现的随机梯度下降完成。数据增强用于在使用很少的训练数据时教会网络达到所要求的鲁棒性和不变性。模型在一个实验中达到了0.92的平均IoU。

04. 100层Tiramisu:用于语义分割的全卷积DenseNets(2017)

DenseNets背后的思想是使每一层以前向传播的方式连接到所有层会使网络更易于训练并更精确。

100层Tiramisu:用于语义分割的全卷积DenseNets(https://arxiv.org/abs/1611.09326)

模型结构构建在dense块的下采样和上采样路径中,下采样路径有2个Transitions Down(TD)而上采样路径有两个Transitions Up(TU)。圆圈和箭头表示网络内的连接模式。

这篇文章的主要贡献在于:

  • 扩展DenseNet结构到全卷积网络来用于语义分割;

  • 提出dense网络中的上采样路径比其他上采样路径性能更好;

  • 证明这个网络能够在标准基准上产生最优结果。

这个模型在CamVid数据集上达到了88%的全局准确率。

05. 扩张卷积的多尺度背景聚合(ICLR,2016)

在这篇论文中,开发了一种卷积网络模块,它可以在不损失分辨率的情况下融合多尺度的上下文信息。然后该模块可以以任何分辨率插入现有架构。该模块基于扩张卷积。

扩张卷积的多尺度上下文聚合(https://arxiv.org/abs/1511.07122)

该模块在Pascal VOC 2012数据集上进行了测试。它证明向现有语义分段体系结构添加上下文模块可提高其准确性。

经过实验训练的前端模块在VOC-2012验证集上实现了69.5%的平均IoU,在测试机上实现了71.3%的平均IoU。该模型对不同物体的训练精度如下所示。

06. DeepLab: 基于深度卷积网络,空洞卷积和全连接CRFs的图像语义分割(TPAMI, 2017)

  • 通过使用DCNNs改进目标边界的定位。

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully… (https://arxiv.org/abs/1606.00915)

这篇文章提出的DeepLab系统在PASCAL VOC-2012语义图像分割任务上实现了79.7%的mIOU。

本文针对深度CNNs在语义分割应用中面临的主要挑战,包括:

  • 由Max-Pooling和下采样的组合导致的特征分辨率的降低。

  • 目标的多尺度问题。

  • DCNN空间变换的不变性导致定位精度降低,而以对象为导向的分类器又需要具有空间变换不变性。

空洞卷积可以通过对滤波器插入零点进行上采样来实现,也可以对输入特征map进行稀疏采样来实现。第二种方法需要对输入特征图通过一个等于空洞卷积率r的因子进行下采样,并将其去除间隔行生成r^2的缩减分辨率map,每种可能的转换为r×r分辨率的缩减变换均对应一个分辨率map。然后,对得到的特征map应用标准卷积操作,将提取到的特征与图像的原始分辨率进行融合。

07. 重新思考用于语义图像分割的Atrous卷积(2017)

本文讨论了使用DCNNs进行语义分割的两个挑战(前面提及);应用连续池化操作出现的特征分辨率降低和对象在多尺度出现。

重新思考用于语义图像分割的Atrous卷积(https://arxiv.org/abs/1706.05587)

为了解决第一个问题,文章建议使用Atrous卷积,也成为扩张卷积。它提出通过使用Atrous卷积来扩大视野,因此包含了多尺度上下文,来解决第二个问题。

在没有DenseCRF后处理的情况下,本文的'DeepLabv3'在PASCAL VOC 2012测试集上达到了85.7%的准确率。

08. 基于空洞可分离卷积编解码器的图像语义分割(ECCV, 2018)

本文的方法“DeepLabv3+”,在无需对PASCAL VOC 2012和Cityscapes数据集进行任何后期处理的情况下,测试集性能分别达到89.0%和82.1%。该模型是DeepLabv3的扩展,通过添加一个简单的解码器模块来细化分割结果。

基于空洞可分离卷积编解码器的图像语义分割(https://paperswithcode.com/paper/encoder-decoder-with-atrous-separable)

图源:https://arxiv.org/pdf/1802.02611v3.pdf

本文实现了两种使用空间金字塔池化模块进行语义分割的神经网络。一种方法通过融合在不同分辨率下的特征来捕获上下文信息,而另一种方法则着眼于获得清晰的目标边界。

图源:https://arxiv.org/pdf/1802.02611v3.pdf

09. FastFCN:重新思考语义分割模型主干中的扩张卷积(2019)

文章提出了一个联合上采样模块,命名为联合金字塔上采样(JPU),以取代消耗大量时间和内存的扩张卷积。它的工作原理是将获取高分辨率图像的任务转化为联合上采样问题。

重新思考语义分割模型主干中的扩张卷积(https://paperswithcode.com/paper/fastfcn-rethinking-dilated-convolution-in-the)

该方法在Pascal Context数据集上实现53.13%的mIoU性能,运行速度提高了三倍。

图源:https://arxiv.org/pdf/1903.11816v1.pdf

该方法实现了全连接网络(FCN)作为主干,同时应用JPU对低分辨率特征映射进行上采样,从而生成高分辨率的特征映射。用JPU代替扩张的卷积不会导致任何性能损失。

图源:https://arxiv.org/pdf/1903.11816v1.pdf

10. 通过视频传播法和标签松弛法优化语义分割(CVPR, 2019)

本文提出了一种基于视频的方法,通过合成新的训练样本来扩展训练集。这是为了提高语义分割网络的准确性。这种方法探究了视频预测模型预测未来帧的能力,以便预测未来帧的标签。

通过视频传播法和标记松弛法优化语义分割(https://paperswithcode.com/paper/improving-semantic-segmentation-via-video)

语义分割和实例分割_2019 语义分割指南相关推荐

  1. 超像素、语义分割、实例分割、全景分割 傻傻分不清?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在计算机视觉中,图像分割是个非常重要且基础的研究方向.简单来说,图 ...

  2. 计算机视觉、图像分类、目标检测、人脸比对、人脸识别、语义分割、实例分割、图像搜索

    计算机视觉.图像分类.目标检测.人脸比对.人脸识别.语义分割.实例分割.图像搜索 目录

  3. 详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割

    https://www.tinymind.cn/articles/120 [ 导读]目前,计算机视觉是深度学习领域最热门的研究领域之一.计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形.算 ...

  4. 干货丨计算机视觉必读:图像分类、定位、检测,语义分割和实例分割方法梳理(经典长文,值得收藏)

    文章来源:新智元 作者:张皓 [导读]本文作者来自南京大学计算机系机器学习与数据挖掘所(LAMDA),本文直观系统地梳理了深度学习在计算机视觉领域四大基本任务中的应用,包括图像分类.定位.检测.语义分 ...

  5. 图像分类、目标检测、语义分割、实例分割和全景分割的区别

    1.Image Classification(图像分类) 图像分类(下图左)就是对图像判断出所属的分类,比如在学习分类中数据集有人(person).羊(sheep).狗(dog)和猫(cat)四种,图 ...

  6. 语义分割和实例分割_语义分割入门的一点总结

    点击上方"CVer",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:Yanpeng Sun https://zhuanlan.zh ...

  7. 语义分割和实例分割_一文读懂语义分割与实例分割

    以人工智能为导向的现代计算机视觉技术,在过去的十年中发生了巨大的变化.今天,它被广泛用于图像分类.人脸识别.物体检测.视频分析以及机器人及自动驾驶汽车中的图像处理等领域.图像分割技术是目前预测图像领域 ...

  8. 一文详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割

    [ 导读]目前,计算机视觉是深度学习领域最热门的研究领域之一.计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形.算法.理论.系统.体系结构),数学(信息检索.机器学习),工程学(机器人.语 ...

  9. 计算机视觉六大技术:图像分类、目标检测、目标跟踪、语义分割、实例分割、影像重建..

    计算机视觉是使用计算机及相关设备对生物视觉的一种模拟.它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样. 计算机视觉既是工程领域,也是科学 ...

  10. 图像分割,语义分割,实例分割

    目标检测基础 1 semantic segmentation(语义分割) 2 Instance segmentation(实例分割) 3 Panoramic segmentation(全景分割) 学习 ...

最新文章

  1. ACMNO.40 C语言-子串 有一字符串,包含n个字符。写一函数,将此字符串中从第m个字符开始的全部字符复制成为另一个字符串
  2. css文字向右对齐_web前端入门到实战:css常用样式对文本的处理演练
  3. 2018-11-23随笔
  4. python实现全景图片拼接
  5. YAML 在Python中的配置应用
  6. BNUOJ 34978 汉诺塔
  7. java大整数的加减乘除_关于大整数的加减乘除求余运算 java
  8. DELETE大批量数据的性能优化
  9. postgresql数据库备份与还原
  10. 图说:为什么Java中的字符串被定义为不可变的
  11. 什么叫有效物理网卡_如何区分虚拟网卡和物理网卡?-阿里云开发者社区
  12. .Net MVC 自定义Action类型,XmlAction,ImageAction等
  13. MySQL学习日志(二)
  14. 如何从一个html页面调用另外一个页面的js函数,解决同一页面中两个iframe互相调用jquery,js函数的方法...
  15. 中职生c语言搜题软件,适合法考学生用的搜题软件,这几款帮你搞定!
  16. 初中参观机器人博物馆的作文_参观机器人博物馆作文
  17. LambdaQueryWrapper的不同写法
  18. ubuntu下文本标注工具BRAT全程离线安装
  19. pyquery 使用说明(支持python 3)
  20. linux下挂载新的磁盘

热门文章

  1. 【信息系统项目管理师】第10章 下篇-项目干系人管理 知识点详细整理
  2. Gstreamer入门之Helloworld(一)
  3. Android MediaRecorder调用AudioRecord流程
  4. tf.sub/tf.mul/tf.neg等api废弃
  5. Android.mk的一些FAQ
  6. Android系统信息获取 之十一:获取IMEI,IMSI号
  7. 巩固——Vue中如何使用less和scss?
  8. excel删除行 uipath_工作再忙,也要学会这10个最经典的Excel小技巧
  9. redis存储对象_redis内存优化总结
  10. 《了凡四训》,仅仅12句,改变你的命运