2017年10月11日

人工智能被认为是第四次工业革命,google,facebook等全球顶尖、最有影响力的技术公司都将目光转向AI,虽然免不了存在泡沫,被部分媒体夸大宣传,神经网络在图像识别,语音识别,自然语言处理,无人车等方面的贡献是毋庸置疑的,随着算法的不断完善,部分垂直领域的研究已经落地应用。

在计算机视觉领域,目前神经网络的应用主要有图像识别,目标定位与检测,语义分割。图像识别就是告诉你图像是什么,目标定位与检测告诉你图像中目标在哪里,语义分割则是从像素级别回答上面两个问题。因为项目需要对卫星遥感影像中的小麦和玉米进行语义分割,这几天在做相关方向的研究,下面给大家简单介绍下语义分割的相关知识。

语义分割是什么

图像语义分割(semantic segmentation),从字面意思上理解就是让计算机根据图像的语义来进行分割,例如让计算机在输入下面左图的情况下,能够输出右图。语义在语音识别中指的是语音的意思,在图像领域,语义指的是图像的内容,对图片意思的理解,比如左图的语义就是三个人骑着三辆自行车;分割的意思是从像素的角度分割出图片中的不同对象,对原图中的每个像素都进行标注,比如右图中粉红色代表人,绿色代表自行车。

语义分割当前应用

目前语义分割的应用领域主要有:

  • 地理信息系统
  • 无人车驾驶
  • 医疗影像分析
  • 机器人等领域

地理信息系统:可以通过训练神经网络让机器输入卫星遥感影像,自动识别道路,河流,庄稼,建筑物等,并且对图像中每个像素进行标注。(下图左边为卫星遥感影像,中间为真实的标签,右边为神经网络预测的标签结果,可以看到,随着训练加深,预测准确率不断提升。使用ResNet FCN网络进行训练)

无人车驾驶:语义分割也是无人车驾驶的核心算法技术,车载摄像头,或者激光雷达探查到图像后输入到神经网络中,后台计算机可以自动将图像分割归类,以避让行人和车辆等障碍。

医疗影像分析:随着人工智能的崛起,将神经网络与医疗诊断结合也成为研究热点,智能医疗研究逐渐成熟。在智能医疗领域,语义分割主要应用有肿瘤图像分割,龋齿诊断等。(下图分别是龋齿诊断,头部CT扫描紧急护理诊断辅助和肺癌诊断辅助)

语义分割数据集

在“数据,算法,计算力”这AI发展的三大驱动力中,眼下最重要的就是数据,数据集在人工智能中有着举足轻重的地位,具体根据不同的应用领域,目前的数据集主要有:

  1. Pascal VOC系列: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/ 通常采用PASCAL VOC 2012,最开始有1464 张具有标注信息的训练图片,2014 年增加到10582张训练图片。主要涉及了日常生活中常见的物体,包括汽车,狗,船等20个分类。
  2. Microsoft COCO: http://link.zhihu.com/?target=http%3A//mscoco.org/explore/ 一共有80个类别。这个数据集主要用于实例级别的分割(Instance-level Segmentation)以及图片描述Image Caption)。
  3. Cityscapes: https://www.cityscapes-dataset.com/ 适用于汽车自动驾驶的训练数据集,包括19种都市街道场景:road、side-walk、building、wal、fence、pole、traficlight、trafic sign、vegetation、terain、sky、person、rider、car、truck、bus、train、motorcycle 和 bicycle。该数据库中用于训练和校验的精细标注的图片数量为3475,同时也包含了 2 万张粗糙的标记图片。

语义分割中的深度学习技术

  • 全卷积神经网络 FCN(2015)

论文:Fully Convolutional Networks for Semantic Segmentation FCN 所追求的是,输入是一张图片是,输出也是一张图片,学习像素到像素的映射,端到端的映射,网络结构如下图所示:

全卷积神经网络主要使用了三种技术:

  1. 卷积化(Convolutional)
  2. 上采样(Upsample)
  3. 跳跃结构(Skip Layer)

卷积化(Convolutional) 卷积化即是将普通的分类网络,比如VGG16,ResNet50/101等网络丢弃全连接层,换上对应的卷积层即可。

上采样(Upsample) 有的说叫conv_transpose更为合适。因为普通的池化会缩小图片的尺寸,比如VGG16 五次池化后图片被缩小了32倍。为了得到和原图等大的分割图,我们需要上采样/反卷积。反卷积和卷积类似,都是相乘相加的运算。只不过后者是多对一,前者是一对多。而反卷积的前向和后向传播,只用颠倒卷积的前后向传播即可。图解如下:

跳跃结构(Skip Layer) 这个结构的作用就在于优化结果,因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以作者将不同池化层的结果进行上采样之后来优化输出。具体结构如下:而不同上采样结构得到的结果对比如下:

这是第一种结构,也是深度学习应用于图像语义分割的开山之作,获得了CVPR2015的最佳论文。但还是无法避免有很多问题,比如,精度问题,对细节不敏感,以及像素与像素之间的关系,忽略空间的一致性等,后面的研究极大的改善了这些问题。

  • SegNet(2015) 论文:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation 主要贡献:将最大池化指数转移至解码器中,改善了分割分辨率。

  • 空洞卷积(2015) 论文:Multi-Scale Context Aggregation by Dilated Convolutions主要贡献:使用了空洞卷积,这是一种可用于密集预测的卷积层;提出在多尺度聚集条件下使用空洞卷积的“背景模块”。

  • DeepLab(2016) 论文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs 主要贡献:使用了空洞卷积;提出了在空间维度上实现金字塔型的空洞池化atrous spatial pyramid pooling(ASPP);使用了全连接条件随机场。

参考: 1. https://www.azavea.com/blog/2017/05/30/deep-learning-on-aerial-imagery/ 
2.https://zhuanlan.zhihu.com/p/22308032

张宇

计算机视觉之语义分割相关推荐

  1. 计算机视觉算法——语义分割网络总结

    计算机视觉算法--语义分割网络总结 计算机视觉算法--语义分割网络总结 1. FCN 1.1 关键知识点--网络结构及特点 1.2 关键知识点--转置卷积 1.3 关键知识点--语义分割评价指标 2. ...

  2. 计算机视觉-语义分割论文总结

    本文包含如下论文: Fully Convolutional Networks for Semantic Segmentation(2015) SegNet: A Deep Convolutional ...

  3. Datawhale 语义分割地标建筑物识别(一)

    本人对前段时间的比赛做个小总结,方便后续回顾学习 一.赛题介绍 赛题分享安排: Task1:赛题理解及baseline Task2:数据增广方法 Task3:网络模型结构发展 Task4:评价函数及损 ...

  4. 计算机视觉、图像分类、目标检测、人脸比对、人脸识别、语义分割、实例分割、图像搜索

    计算机视觉.图像分类.目标检测.人脸比对.人脸识别.语义分割.实例分割.图像搜索 目录

  5. 计算机视觉领域不同的方向:目标识别、目标检测、语义分割等

    #计算机视觉任务: ##图像分类(image classification) 图像分类:根据图像的主要内容进行分类. 数据集:MNIST, CIFAR, ImageNet ##目标检测(object ...

  6. 详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割

    https://www.tinymind.cn/articles/120 [ 导读]目前,计算机视觉是深度学习领域最热门的研究领域之一.计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形.算 ...

  7. 干货丨计算机视觉必读:图像分类、定位、检测,语义分割和实例分割方法梳理(经典长文,值得收藏)

    文章来源:新智元 作者:张皓 [导读]本文作者来自南京大学计算机系机器学习与数据挖掘所(LAMDA),本文直观系统地梳理了深度学习在计算机视觉领域四大基本任务中的应用,包括图像分类.定位.检测.语义分 ...

  8. CV之IS:计算机视觉之图像分割(Image Segmentation)算法的挑战任务、算法演化、目标检测和图像分割(语义分割/实例分割/全景分割)的对比

    CV之IS:计算机视觉之图像分割(Image Segmentation)算法的挑战任务.算法演化.目标检测和图像分割(语义分割/实例分割/全景分割)的对比 相关文章 CV之IS:计算机视觉之图像分割( ...

  9. CV之IS:计算机视觉中图像分割(语义分割)最diao炸(完)天(整)的思维导图

    CV之IS:计算机视觉中图像分割(语义分割)最diao炸(完)天(整)的思维导图 导读:此语义导图为某大牛精心整理,感谢无私分享. 目录 语义分割思维导图(完整) 相关文章 CV之IS:计算机视觉之图 ...

  10. CV之IS:计算机视觉之图像分割(Image Segmentation)/语义分割算法的简介、使用方法、案例应用之详细攻略

    CV之IS:计算机视觉之图像分割(Image Segmentation)/语义分割算法的简介.使用方法.案例应用之详细攻略 目录 图像分割算法的简介 1.常用的数据集 2.图像分割的评价指标

最新文章

  1. TP获取服务器mysql版本
  2. 漫话:如何给女朋友解释为什么双11无法修改收货地址?
  3. 修改XtraMessageBox的内容字体大小
  4. Divide it!
  5. 谷歌浏览器怎么设置点击书签 谷歌浏览器如何设置点击书签
  6. UNION,EXISTS,IN等在SQL语句中的灵活应用和场境的选择。
  7. STM32F103单片机ADC功能使用
  8. 5g网络架构_【5G网络架构】系列之五:5G核心网向to B演进
  9. java 编译开关_Java开关盒字符串
  10. 7 大版块 | 全面解读与认知支付系统
  11. 学习笔记:自己编译安装OpenCV+测试opencv安装是否成功
  12. access通过身份证号提取性别_从身份证号码中提取出生年月,性别等都不掌握,那就真的Out了...
  13. 巴特沃斯(Butterworth)滤波器的设计和幅频特性曲线绘制
  14. CMPP3.0协议(移动)
  15. 深度学习技术发展趋势浅析
  16. 谢孟媛初级文法28 课地方副词时间副词和程度副词
  17. 腾讯bugly升级注意事项
  18. Markdown的使用
  19. Cameralink转VGA接口转换模块
  20. 中国手机力推5G,却让苹果摘了桃子

热门文章

  1. 课程设计C语言歌手,【图片】发几个C语言课程设计源代码(恭喜自己当上技术小吧主)【东华理工大学吧】_百度贴吧...
  2. java 组件更新,java – 我可以批量处理一些Swing组件更新,以便重绘全部一次完成吗?...
  3. C# image转byte[] byte[]转image
  4. linux svn服务器同步,Linux服务器实现SVN与WEB同步解决方案
  5. vs有断点就卡死_再分享 5 个 vs 调试技巧
  6. eclipse删除mysql数据库_在Eclipse中测试MySQL-JDBC(4)删除数据库中的数据【D】
  7. java switch 条件_Java 条件之 switch 语句
  8. Linux的相关资源帖
  9. 微信公众号开发:消息处理
  10. Android Studio 通过一个登录功能介绍SQLite数据库的使用