点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:量子位

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割。

因此上下文建模对图像语义分割的性能至关重要!

而与以往基于卷积网络的方法不同,来自法国的一个研究团队另辟蹊径,提出了一种只使用Transformer的语义分割方法。

该方法“效果拔群”,可以很好地捕捉图像全局上下文信息!

要知道,就连取得了骄人成绩的FCN(完全卷积网络)都有“图像全局信息访问限制”的问题。(卷积结构在图像语义分割方面目前有无法打破的局限)

而这次这个方法在具有挑战性的ADE20K数据集上,性能都超过了最先进的卷积方法!

不得不说,Transformer跨界计算机视觉领域真是越来越频繁了、效果也越来越成功了!

那这次表现优异的Transformer语义分割,用了什么不一样的“配方”吗?

使用Vision Transformer

没错,这次这个最终被命名为Segmenter的语义分割模型,主要基于去年10月份才诞生的一个用于计算机视觉领域的“新秀”Transformer:Vision Transformer,简称ViT。

ViT有多“秀”呢?

ViT采用纯Transformer架构,将图像分成多个patches进行输入,在很多图像分类任务中表现都不输最先进的卷积网络。

缺点就是在训练数据集较小时,性能不是很好。

Segmenter作为一个纯Transformer的编码-解码架构,利用了模型每一层的全局图像上下文。

基于最新的ViT研究成果,将图像分割成块(patches),并将它们映射为一个线性嵌入序列,用编码器进行编码。再由Mask Transformer将编码器和类嵌入的输出进行解码,上采样后应用Argmax给每个像素一一分好类,输出最终的像素分割图。

下面是该模型的架构示意图:

解码阶段采用了联合处理图像块和类嵌入的简单方法,解码器Mask Transformer可以通过用对象嵌入代替类嵌入来直接进行全景分割。

效果如何

多说无益,看看实际效果如何?

首先他们在ADE20K数据集上比较不同Transformer变体,研究不同参数(正则化、模型大小、图像块大小、训练数据集大小,模型性能,不同的解码器等),全方面比较Segmenter与基于卷积的语义分割方法。

其中ADE20K数据集,包含具有挑战性的细粒度(fine-grained)标签场景,是最具挑战性的语义分割数据集之一。

下表是不同正则化方案的比较结果:

他们发现随机深度(Stochastic Depth)方案可独立提高性能,而dropout无论是单独还是与随机深度相结合,都会损耗性能。

不同图像块大小和不同transformer的性能比较发现:

增加图像块的大小会导致图像的表示更粗糙,但会产生处理速度更快的小序列。

减少图像块大小是一个强大的改进方式,不用引入任何参数!但需要在较长的序列上计算Attention,会增加计算时间和内存占用。

Segmenter在使用大型transformer模型小规模图像块的情况下更优:

(表中间是带有线性解码器的不同编码器,表底部是带有Mask Transformer作为解码器的不同编码器)

下图也显示了Segmenter的明显优势,其中Seg/16模型(图像块大小为16x16)在性能与准确性方面表现最好。

最后,我们再来看看Segmenter与SOTA的比较:

在最具挑战性的ADE20K数据集上,Segmenter两项指标均高于所有SOTA模型!

(中间太长已省略)

在Cityscapes数据集上与大多数SOTA不相上下,只比性能最好的Panoptic-Deeplab低0.8。

在Pascal Context数据集上的表现也是如此。

剩余参数比较,大家有兴趣的可按需查看论文细节。

论文地址:
https://www.arxiv-vanity.com/papers/2105.05633/

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

性能超最先进卷积!用Transformer进行图像语义分割!相关推荐

  1. 一个关于卷积神经网络应用于图像语义分割的PPT

    转自:https://yhlleo.github.io/2016/10/19/CNN-SemanticSeg/ 把前段时间自己整理的一个关于卷积神经网络应用于图像语义分割的PPT整理发布在本篇博客内, ...

  2. 深度卷积网络CNN与图像语义分割

    转载请注明出处:  http://xiahouzuoxin.github.io/notes/html/深度卷积网络CNN与图像语义分割.html 级别1:DL快速上手 级别2:从Caffe着手实践 级 ...

  3. 用Transformer进行图像语义分割,性能超最先进的卷积方法!

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割. 因此上下文建模对图像语义分割的性 ...

  4. 毕业设计-基于卷积神经网络的遥感图像语义分割方法

    目录 前言 课题背景和意义 实现技术思路 一.相关技术理论 二.基于残差融合和多尺度上下文信息的遥感图像语义分割方法 三.基于注意力机制和边缘检测的遥感图像语义分割方法 实现效果图样例 最后 前言

  5. 【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割

    [论文阅读]Swin Transformer Embedding UNet用于遥感图像语义分割 文章目录 [论文阅读]Swin Transformer Embedding UNet用于遥感图像语义分割 ...

  6. 一、深度卷积神经网络中图像语义分割研究总结

    时间:20220410 内容:语义分割研究进程总结 参考:深度卷积神经网络图像语义分割研究进展 http://www.cjig.cn/html/jig/2020/6/20200601.htm 语义分割 ...

  7. 图像语义分割:FCN全卷积网络概述

    图像语义分割:FCN全卷积网络概述 Why does FCN work? FCN网络的基本概念 FCN的计算原理 Feature map上采样 What is FCN? FCN网络的结构 FCN每层的 ...

  8. 【CV】DeepLab:使用DCNN、空洞卷积和全连接条件随机场的图像语义分割网络

    论文名称:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Full ...

  9. 图像语义分割_图像语义分割(9)-DeepLabV3: 再次思考用于图像语义分割的空洞卷积...

    论文地址 :Rethinking Atrous Convolution for Semantic Image Segmentation 论文代码:Github链接 1. 摘要 文章主要的工作: 使用空 ...

最新文章

  1. 为图片添加半透明遮罩效果
  2. 各大厂这个档次分配,大佬们有什么看法?
  3. 【spring】让spring的注解和xml配置文件变得优雅,最常用的注解
  4. java 提供的排序方法_请给出java几种排序方法
  5. C++找到一个大于或等于n且为2的幂的数字p的算法实现(附完整源码)
  6. 【Linux】一步一步学Linux——groupdel命令(88)
  7. [CodeForces-1138B] *Circus 解方程|数学
  8. 关于 win7 远程桌面的多用户问题
  9. 事务的隔离级别 mysql
  10. C语言 *** stack smashing detected *** 问题的解决
  11. 最大公约数及最小公倍数计算
  12. Python模块:bisect二分算法模块
  13. android studio 创建项目失败原因Failed to create
  14. 【ZBrush笔刷收集】一百多个实用笔刷和Alpah,以及笔刷使用方法,全部免费
  15. Matlba实现傅里叶变换及其逆变换
  16. 2019南京“无房证明”办理
  17. 【洞见研报】网络游戏薪酬报告(薪酬报告,网络游戏,游戏公司岗位)
  18. 小手一敲,让JS Map现原形
  19. ASP.NET Session详细介绍
  20. 软件测试如何提高测试的覆盖率,测试覆盖率是什么?

热门文章

  1. hmailserver php,hmailserver关于afterlogic webmail php版本下的用户密码修改功能
  2. 计算机视觉 滑动窗方法,图像分割相关技术之滑动窗口、RPN以及anchor box简介
  3. python人脸识别opencv_基于python+OpenCV模块的人脸识别定位技术
  4. 【srcipt】python运行cmd命令
  5. python数据分布_Python中的数据分布
  6. 计算机管理游戏,网吧游戏管理系统
  7. linux exfat分区格式化,技术|如何在 Linux 上将 USB 盘格式化为 exFAT
  8. 使用计算机教学的意义,信息技术对教学的意义
  9. 图像处理自相关函数c语言,图像处理实验书.docx
  10. 计算机组成原理实验串行口,计算机组成原理实验2.ppt