本人硕士,入坑图像语义分割1年半,论文读了一箩筐。

多尺度信息在传统的计算机视觉算法中有重要的意义,比如DPM ,但具体有什么意义我就不谈了,因为我对传统计算机视觉算法并不了解。

首先来说说空间金字塔池化。何凯明大神为了解决图像分类中存在的全连接层只能接受固定输入的问题,而提出了SPPnet,通过不同的下采样步长,得到固定大小的特征图,并且将特征图拉伸成向量并且进行拼接,这样做不仅可以使网络适应任意尺度的输入,而且因为不同的下采样步长,使网络获得了不同的感受野, 能够在不同尺度上捕捉信息,对于分类任务有明显的提升。但是全局平均池化,可以解决在图像分类中不能接受任意大小的输入的问题。说完SPPnet, 谈一下PSPnet ,它是SPPnet 在图像语义分割中的应用,只不过PSPnet 在使用不同下采样步长后,为了适应图像语义分割需要——保持特征的空间信息,没有将特征拉伸成向量,而是将不同尺度的特征图上采样至同样大小,进行concatenate 操作,PSPnet在语义分割中的perfomance还不错。在语义分割中另一个融合多尺度特征的网络是aspp(通过在卷积核内插入不同的空洞,以扩大感受野,而避免下采样操作丢失过多的空间信息),由谷歌deeplab实验室提出。这个实验室提出的一系列语义分割技术,将语义分割精度推向89+。从最开始的将图像金字塔与attention model 结合,largeFOV ,然后加上全连接crf,再到aspp+crf,然后又提出aspp+skip结构,将aspp 输出的不同scale feature map上样至同样大小,然后在加入skip(有点类似unet,unet 实际上是encoder-decoder+skip),在到现在pascal voc 语义分割榜首,89+,估计这个精度一段时间内,没有其他的操作可以相媲美了,因为deeplab 在JFT-300M上预训练模型,这个数据集是image net的300倍,好像有几亿张图片。deeplab 的论文建议 多读,反复读,而且感觉deeplab 对图像金子塔,或是多尺度输入很钟爱,每篇论文都会探讨到多尺度问题。而且deeplab 的论文提出的一些训练策略也很值得学习。语义分割中还有一些unet, segnet ,deconv-net,refine-net,link-net等等太多了,但是可学习的东西并不多,论文里探讨的东西也不多,基本都是丢出个网络,给出个结果。不同网络之间的性能相差一两个百分点不能说明什么实际问题,因为深度学习的调参技巧很重要。

以上说了2大类,一是spp,二是aspp,下面要说的是FPNnet ,这个结构在目标检测中很重要,可以增加检测小目标的正确率。实际上和unet 没什么太大区别,可能Unet 采用concatenate, FPNnet 采用sum,而且FPNnet 在每一层都有预测,最后将不同层的预测做个融合。

图像金字塔很重要,将不同scale 的图像送入网络提取出不同scale 的特征做融合,对于整个网络性能的提升很大,但是由于图像金字塔的多尺度输入,造成计算且保存 了大量的梯度在内存,从而导致对硬件的要求很高,而且测试时,增加了计算时间。多数论文并没有真的采用图像金字塔作,无论是分割还是检测,通常做法都是将网络进行多尺度训练,然后在测试阶段进行多尺融合,就算这样, faster rcnn 等也没有将图像金子塔作为默认的设置。顺便说一下,我特别钟爱多尺度技术,目前做的论文在优化图像金字塔。

做个总结,多尺度信息很重要,当你网络到达瓶颈时,可不可以尝试一下多尺度技术,无论是多尺度训练还是多尺度融合,做完这个操作你会发现你的网络到达了一个新的高度,网络性能得到飞跃。

多尺度特征表示在深度学习中的重要意义相关推荐

  1. 「AI不惑境」深度学习中的多尺度模型设计

    https://www.toutiao.com/a6716408071637172748/ 大家好,这是专栏<AI不惑境>的第七篇文章,讲述计算机视觉中的多尺度问题. 进入到不惑境界,就是 ...

  2. 【AI不惑境】深度学习中的多尺度模型设计

    大家好,这是专栏<AI不惑境>的第七篇文章,讲述计算机视觉中的多尺度问题. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程 ...

  3. 深度学习——day9(外 Q1 2021)基于多尺度特征融合的深度监督卷积神经网络路面裂缝检测

    基于多尺度特征融合的深度监督卷积神经网络路面裂缝检测 导图和笔记资源下载 三级目录# (外 Q1 2021)基于多尺度特征融合的深度监督卷积神经网络路面裂缝检测 chap2 传统裂纹检测方法 1)Tr ...

  4. 基于多特征地图和深度学习的实时交通场景分割

    https://www.toutiao.com/a6623529829402673667/ 2018-11-14 09:58:33 Ⅰ.介绍 交通场景分割是智能车辆在检测障碍物.规划路径和自主导航中的 ...

  5. 【AI白身境】深度学习中的数据可视化​​​​​​​

    文章首发于微信公众号<有三AI> [AI白身境]深度学习中的数据可视化 今天是新专栏<AI白身境>的第八篇,所谓白身,就是什么都不会,还没有进入角色. 上一节我们已经讲述了如何 ...

  6. [综述类] 一文道尽深度学习中的数据增强方法(上)

    今天带来一次有关于深度学习中的数据增强方法的分享. 00 什么是数据增强 在深度学习项目中,寻找数据花费了相当多的时间.但在很多实际的项目中,我们难以找到充足的数据来完成任务. 为了要保证完美地完成项 ...

  7. 深度学习中交叉熵_深度计算机视觉,用于检测高熵合金中的钽和铌碎片

    深度学习中交叉熵 计算机视觉 (Computer Vision) Deep Computer Vision is capable of doing object detection and image ...

  8. 对pca降维后的手写体数字图片数据分类_【AI白身境】深度学习中的数据可视化...

    今天是新专栏<AI白身境>的第八篇,所谓白身,就是什么都不会,还没有进入角色. 上一节我们已经讲述了如何用爬虫爬取数据,那爬取完数据之后就应该是进行处理了,一个很常用的手段是数据可视化. ...

  9. 经验 | 深度学习中从基础综述、论文笔记到工程经验、训练技巧

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:本文授权转自知乎作者跑者小越,https://zhuanla ...

最新文章

  1. redis应用之——注册、登录
  2. Grunt + Bower—前端构建利器
  3. Bootstrap 折叠插件Collapse 选项
  4. 【知乎】中国是否适合发展纯电动汽车?
  5. centos7 安装mysql8
  6. jenkins配置节点为windows代理
  7. ios微信下vue项目组件切换并自动播放音频的解决方案
  8. 文件存储形式的通讯录
  9. 接受吧,这世界充满潜规则
  10. 字符串(的基本操作,格式化,方法)
  11. JavaScript案例分享+复盘——小米闪购界面
  12. IDEA 设置导入/导出
  13. 从全班同学的成绩中找出最高成绩(遍历一位数组)
  14. Echarts地图深入+散点
  15. 从贫穷到富有——我的修行之路
  16. Excel 数组公式的简单使用
  17. 交互式电子白板android,交互式电子白板_触摸屏电子白板_智能电子白板_GESEE国视科技...
  18. 带着问题重学 Java 并发编程
  19. Python 打字小游戏开发,来体验不一样的打字游戏乐趣(完结篇)
  20. 蓝牙控制esp32单片机(三)

热门文章

  1. 使用NSData下载图片,但是没有下载成功
  2. Uniswap V2里的手续费换算
  3. os 修改文件夹 名_如何在OS X中更改文件夹和应用程序图标
  4. Linux rm命令 回收机制
  5. 刀塔2国服服务器都未响应,电脑中玩dota2卡死出现无响应蓝屏红字warning:connection problem如何解决...
  6. qt通过Tcp和SQL实现仿qq的聊天软件
  7. crt显存试题计算机,2008年9月全国计算机三级考试《PC技术》笔试真题
  8. `Computer-Algorithm` Tarjan算法,强连通分量SCC,PBCC割点,EBCC割边/桥
  9. 2021中科院计算机博士,北京:中国科学院大学2021年秋季入学博士招生考试初试进入复试基本分数线要求的通知...
  10. 牛刀小试基本语法,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang基本语法和变量的使用EP02