MIT Scene Parsing Benchmark简介

Scene parsing is to segment and parse an image into different image regions associated with semantic categories, such as sky, road, person, and bed. MIT Scene Parsing Benchmark (SceneParse150) provides a standard training and evaluation platform for the algorithms of scene parsing. The data for this benchmark comes fromADE20K Dataset which contains more than 20K scene-centric images exhaustivelyannotated with objects and object parts. Specifically, the benchmark is divided into 20K images for training, 2K images for validation, and another batch of held-out images for testing. There are totally 150 semantic categories included for evaluation, which include stuffs like sky, road, grass, and discrete objects like person, car, bed. Note that there are non-uniform distribution of objects occuring in the images, mimicking a more natural object occurrence in daily scene.

scene Benchmark包含了150个物体类别,包括一般无定型的墙壁、水域、地板、道路,也包括常见的室内目标如窗户、桌子、椅子、床、杯子等粘附和非粘附目标,包含了COCO数据集的大多数类别。

主页链接:http://sceneparsing.csail.mit.edu/

预训练模型: http://sceneparsing.csail.mit.edu/model/

Model ZOO : https://github.com/CSAILVision/sceneparsing/wiki/Model-Zoo

一些State 的结果:https://drive.google.com/drive/folders/0B9CKOTmy0DyaQ2oxUHdtYUd2Mm8?usp=sharing

挑战结果: http://placeschallenge.csail.mit.edu/results_challenge.html  Face++ 暂时排在第一名


1. FCN与去卷积网络

deconv的其中一个用途是做upsampling,即增大图像尺寸。而dilated conv并不是做upsampling,而是增大感受野。

参考:如何理解深度学习中的去卷积网络层

(1) s>1,即卷积的同时做了downsampling,卷积后图像尺寸减小;

(2) s=1,普通的步长为1的卷积,比如在tensorflow中设置padding=SAME的话,卷积的图像输入和输出有相同的尺寸大小;

(3) 0<s<1,fractionally strided convolution,相当于对图像做upsampling。比如s=0.5时,意味着在图像每个像素之间padding一个空白的像素后,stride改为1做卷积,得到的feature map尺寸增大一倍。

而dilated conv不是在像素之间padding空白的像素,而是在已有的像素上,skip掉一些像素,或者输入不变,对conv的kernel参数中插一些0的weight,达到一次卷积看到的空间范围变大的目的。

2. 所谓孔洞卷积

dilated conv,中文可以叫做空洞卷积或者扩张卷积。

参考:如何理解扩展卷积网络?下一段摘抄于此文

参考:Multi-scale context aggregation by dilated convolutions

诞生背景,在图像分割领域,图像输入到CNN(典型的网络比如FCN[3])中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测(upsampling一般采用deconv反卷积操作,deconv可参见知乎答案如何理解深度学习中的deconvolution networks?),之前的pooling操作使得每个pixel预测都能看到较大感受野信息。因此图像分割FCN中有两个关键,一个是pooling减小图像尺寸增大感受野,另一个是upsampling扩大图像尺寸。在先减小再增大尺寸的过程中,肯定有一些信息损失掉了,那么能不能设计一种新的操作,不通过pooling也能有较大的感受野看到更多的信息呢?答案就是dilated conv。

下面看一下dilated conv原始论文[4]中的示意图:

(a)图对应3x3的1-dilated conv,和普通的卷积操作一样,(b)图对应3x3的2-dilated conv,实际的卷积kernel size还是3x3,但是空洞为1,也就是对于一个7x7的图像patch,只有9个红色的点和3x3的kernel发生卷积操作,其余的点略过。也可以理解为kernel的size为7x7,但是只有图中的9个点的权重不为0,其余都为0。 可以看到虽然kernel size只有3x3,但是这个卷积的感受野已经增大到了7x7(如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话,那么每个红点就是1-dilated的卷积输出,所以感受野为3x3,所以1-dilated和2-dilated合起来就能达到7x7的conv),(c)图是4-dilated conv操作,同理跟在两个1-dilated和2-dilated conv的后面,能达到15x15的感受野。对比传统的conv操作,3层3x3的卷积加起来,stride为1的话,只能达到(kernel-1)*layer+1=7的感受野,也就是和层数layer成线性关系,而dilated conv的感受野是指数级的增长。

dilated的好处是不做pooling损失信息的情况下,加大了感受野,让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中,都能很好的应用dilated conv,比如图像分割[3]、语音合成WaveNet[2]、机器翻译ByteNet[1]中。

可以把网络看做一个pooling层插值网络。

参考:Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions."arXiv preprint arXiv:1511.07122 (2015).

使用预训练模型得到的一些结果:

预处理模型效果不是很好,应该使用竞赛排名top的几个模型

场景分割:MIT Scene Parsing 与DilatedNet 扩展卷积网络相关推荐

  1. 场景解析--Pyramid Scene Parsing Network

    Pyramid Scene Parsing Network CVPR2017 语义分割 https://github.com/hszhao/PSPNet 针对 FCN 中没有 context 信息,本 ...

  2. 基于深度学习的场景分割算法研究综述

    基于深度学习的场景分割算法研究综述 人工智能技术与咨询 来自<计算机研究与发展> ,作者张 蕊等 摘 要 场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问 ...

  3. 2020CVPR-目标分割-SPNet-Strip Pooling Rethinking Spatial Pooling for Scene Parsing

    论文下载:SPNet-paper:Strip Pooling: Rethinking Spatial Pooling for Scene Parsing 代码下载:SPNet-github:Strip ...

  4. mit数据集_DriveSeg:动态驾驶场景分割数据集

    [导读]麻省理工学院和丰田发布DriveSeg数据集以加速自动驾驶研究,DriveSeg包含许多常见道路对象的精确像素级表示,并通过连续视频驾驶场景的镜头. 我们如何训练自动驾驶模型,以加深对周围世界 ...

  5. 【语义分割】PSPNet:Pyramid Scene Parsing Network

    文章目录 一.主要思想 二.方法 一.主要思想 提出了pyramid pooling module (PPM) 模块,聚合不同区域的上下文信息,从而提高获取全局信息的能力. 现有的深度网络方法中,某一 ...

  6. 【PSPnet2017】Pyramid Scene Parsing Network

    Pyramid Scene Parsing Network 金字塔式场景解析网络 arXiv:1612.01105v2 [cs.CV] 27 Apr 2017 文章地址:https://arxiv.o ...

  7. Adaptive Context Network for Scene Parsing

    Adaptive Context Network for Scene Parsing Abstract ​ 最近的研究试图通过探索不同层次的上下文来提高场景解析性能,通常训练一个设计良好的卷积网络来在 ...

  8. 【论文阅读】PSPNet(Pyramid Scene Parsing Network)

    用于语义分割的金字塔场景识别网络 论文链接 摘要 该论文通过金字塔池化模块以及金字塔场景解析网络(PSPNet),通过基于不同区域的上下文信息聚合来利用全局上下文信息的能力.全局先验表示在场景解析任务 ...

  9. 基于多特征地图和深度学习的实时交通场景分割

    https://www.toutiao.com/a6623529829402673667/ 2018-11-14 09:58:33 Ⅰ.介绍 交通场景分割是智能车辆在检测障碍物.规划路径和自主导航中的 ...

最新文章

  1. 背景属性的相关属性设置
  2. Flask之DButils
  3. (笔试题)将数组分成两组,使两组的和的差的绝对值最小
  4. 【NLP】中文BERT上分新技巧,多粒度信息来帮忙
  5. vue 动态设置背景图片
  6. ELK根据服务类型收集多个容器数据
  7. 计算机三级网络技术知识点cn,计算机等级三级网络技术考试详解
  8. JOptionPane总结
  9. 1023. Have Fun with Numbers (20)
  10. 汉字转换成拼音的类(转)
  11. Selenium下载页面上的图片
  12. 怎么看(美女)漫画最爽 - 图流
  13. 二十四节气-秋分 | 文案、海报
  14. 移植python到小米路由器记录。
  15. 【翻译】Wide Deep Learning for Recommender Systems--推荐系统的广泛深度学习
  16. OLTP和OLAT的区别
  17. 基于Puppeteer的Chrome Recorder初试
  18. ccs读取dat文件c语言程序,CCS中dat文件的格式
  19. WebLogic之eclipse安装WebLogic插件
  20. 仿flash滚动播放图片

热门文章

  1. 下一个游戏新风口已来?小游戏或成2018年最大游戏黑马
  2. ExecutorCompletionService分析及使用
  3. iOS数据存储——沙盒。
  4. objective-c 逐帧动画
  5. 第二次冲刺——第7天
  6. windows和linux下的spice客户端使用方法
  7. ajax发送请求-同步和异步
  8. C# 读取指定目录中的所有文件,并按规则生成SQL语句!
  9. HBASE完全分布式安装
  10. 关于Go结构体内存大小的一点小知识