论文:https://arxiv.org/pdf/2107.06278.pdf

代码:MaskFormer

目录

1.背景

2.掩膜分类算法

2.1基于像素分类算法

2.2基于掩膜分类算法

2.3MaskFormer

2.3.1像素级模块

2.3.2transformer 模块

2.3.3分割模块

2.4掩膜分类推理

3.实验

3.1语义分割

整理不易,欢迎一键三连!!!


1.背景

图像语义分割问题一直以来都被当做一个像素级分类问题解决的。我们发现,把语义分割看成一个mask classification问题不仅更自然的把语义级分割(semantic-level segmentation)和实例级分割(instance-level segmentation)联系在了一起,并且在语义分割上取得了比像素级分类方法更好的方法。我们提出的MaskFormer模型在语义分割(ADE20K, 55.6 mIoU)和全景分割(COCO-panoptic, 52.7 PQ)上都取得了新的SOTA结果。

我们的一个重要发现:掩膜分类能有效解决语义分割和实例分割问题,事实上,在FCN之前,语义分割表现最好的方法是像O2P和SDS这样使用掩膜分类计算的算法。带着2个问题进入下面的学习:一个单独的掩膜分类模型能否简化语义和实例分割任务的前景呢?一个掩膜分类模型能优于现有的基于像素分类的算法吗?

为了解决这两个问题,我们提出了一种简单的MaskFormer方法,可以将现有的任意基于像素分类的算法无缝转换成掩膜分类算法。

可以从这张图上看到,左边的图中表示了 基于每个位置用相同的分类损失的像素分类的语义分割,右边的图中表示基于掩码分类预测一组二值掩码,并为每个掩码分配一个类。

2.掩膜分类算法

2.1基于像素分类算法

对于一个H*W大小的输入影像,基于像素分类算法目标是预测每个像素点被分成K个类别中的某一类,即:

其中K为类别数。真实label为:

loss为:

2.2基于掩膜分类算法

掩膜分类任务可以被分成2个任务:

  1. 将图像划分为N个区域(N不需要等于K),用二值掩膜表示。
  2. 对每个区域作为一个整体划分到K个类别中,注意,允许多个区域划分成相同类别,使得该算法能应用到语义和实例级分割任务中。

为了训练模型,需要计算预测值和真实值之间的匹配度,我们假设预测的结果为:

K+1是因为有一类是背景。

真实label为:

为第i个真实分割块的类别,所以预测的,真实的

,这两者尺寸是不同的,我们假设 ,并给真实值填充一组背景允许一对一匹配。

对语义分割来说,如果预测的区域数量 N 与类别标签的数量 K 相匹配,那么简单的固定匹配是可能的。因此,第 i 个预测与具有类别标签 i 的真实区域相匹配,如果预测区域i的类别在真实label中不存在,则与背景匹配。在我们的实验中,我们发现基于二分匹配的分配比固定匹配效果好。

计算损失,我们通过下式来表示:

2.3MaskFormer

2.3.1像素级模块

输入图像(H*W)在经过骨干网络之后,通常都会得到低分辨率的特征图(C_{f}*\tfrac{H}{S}*\tfrac{W}{S}),像素级模块中的pixel decoder模块会将特征图上采样到C_{\xi }*H*W大小,注意,任何基于像素分类的分割模型都适合像素级模块设计,包括最近的基于 Transformer 的模块。MaskFormer 将此类模型无缝转换为掩膜分类模型。

2.3.2transformer 模块

Transformer 模块使用标准的 Transformer 解码器 来计算图像特征F 和 N 个可学习的位置embedding(即query)其输出是 N 个分割embedding编码成每个分割的全局信息 MaskFormer预测。

2.3.3分割模块

在sofmax之后使用线性分类器,在每个分割embedding上,以产生每个分割的类别概率预测。对mask预测,采用2层隐层的MLP将分割embedding转换成mask embedding,最后,通过对mask embedding和pixel embedding操作计算得到经过点操作的mask的二值预测值,这里的点操作指的是sigmoid激活函数。

2.4掩膜分类推理

通常的分割推理是将图像按像素对每个像素值划分到N个类别中的某一类,划分的方式是先将每个像素计算N个类别的预测概率,然后用argmax函数求N个可能性的最大值,即此像素的分类类别。对语义分割来说,共享的几个分割块类别标签可以合并,对实例分割来说,这些分割块的标签不合并即可。每个像素的预测概率计算:

我们发现概率掩码对的边缘效果比普通分割推理的香酥鸡分类效果更好。然而,我们观察到
直接最大化每个像素类的概率会导致性能不佳。 我们假设,梯度均匀分布到每个query,但这使训练复杂化。每个像素类的概率计算:

3.实验

3.1语义分割

整理不易,欢迎一键三连!!!

【MaskFormer】Per-Pixel Classification is Not All You Needfor Semantic Segmentation相关推荐

  1. 【R-CNN】Rich feature hierarchies for accurate object detection and semantic segmentation (2014) 全文翻译

    作者 Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik (UC Berkeley, {rbg,jdonahue,trevor,ma ...

  2. 【Transformer】CLS(classification)有什么用?

    CLS]就是classification的意思,可以理解为用于下游的分类任务. 一句话理解:[CSL]就是一个向量,只是不是某一个字的向量,是一个够代表整个文本的的语义特征向量,取出来就可以直接用于分 ...

  3. 【论文】Awesome Relation Classification Paper(关系分类)(PART II)

    0. 写在前面 上一篇[论文]Awesome Relation Extraction Paper(关系抽取)(PART I)介绍了一些关系抽取和关系分类方面的经典论文,主要是以CNN模型为主,今天我们 ...

  4. 【论文】Awesome Relation Classification Paper(关系分类)(PART I)

    0. 写在前面 "正确的判断来自经验,而经验来自于错误的判断" 之前做过的百度今年的语言与智能技术竞赛,其中有一个子赛道就是关于信息抽取.信息抽取(Information Extr ...

  5. 【cs231n】图像分类-Linear Classification线性分类

    [学习自CS231n课程] 转载请注明出处:http://www.cnblogs.com/GraceSkyer/p/8824876.html 之前介绍了图像分类问题.图像分类的任务,就是从已有的固定分 ...

  6. 【 Notes 】Positioning system classification

    Positioning systems determine the location of a person or an object either relative to a known posit ...

  7. 【Paper-Attack】Attacking Graph-Based Classification without Changing Existing Connections

    Attacking Graph-Based Classification without Changing Existing Connections 背景 training dataset中包含pos ...

  8. 【转】像素 Pixel (Picture Element)

    原文链接:https://blog.csdn.net/zssureqh/article/details/78768942 1.像素Pixel 讲到概念,首选Wiki百科.当然我说的是英文版Pixel ...

  9. 【李宏毅】-机器学习2021-HW2-Phoneme Classification

    Data 这个任务是一个多分类问题: 从语音进行帧级音素预测. 数据分析 一个语音结果处理之后会得到一个特征向量,这个向量的是Txd, T是frame的长度,d是嵌入维度,使用不同的特征提取方法,得到 ...

最新文章

  1. Swift项目引入第三方库的方法
  2. js代码实现购物车效果
  3. 给 DataGrid 的删除信息添加提示
  4. java dom cdata_java – 通过DOM解析器从XML处理CDATA
  5. java saxexception_SAXException
  6. Vue「五」—— 动态组件、插槽、自定义指令
  7. 设计灵感|简约复古风格海报设计这样玩
  8. c语言中{的作用,C语言中Static和Const关键字的作用
  9. r语言结构方程模型可视化_R语言时间序列分析(二):ts对象及其可视化
  10. Sun java认证考试真题答案及部分解析(一)
  11. android基础面试题(一)
  12. 央视《家有妙招》整理版,共250招,值得永远收藏
  13. 隐藏百度地图logo
  14. 揭秘慕思“智商税”:狂砸40亿搞营销,发明专利仅7项
  15. 北斗在线app服务器,北斗卫星导航app,北斗卫星导航app官网手机版预约 v1.0 - 浏览器家园...
  16. python爬虫实战---网易云音乐评论抓取
  17. 云计算是什么,物联网是什么,它们之间有什么关系?
  18. 20P83 pr预设模板5000种视频转场过渡视觉特效豪华预设包 v2
  19. 微信扫码支付dome php,帝国cms 微信扫码支付 模式二 扫码付款demo
  20. FPGA学习日志——半加器half_adder

热门文章

  1. FreeRTOS学习笔记(7)——软件定时器
  2. 使用WinDBG调试查看C#内存转储文件
  3. IT忍者神龟之javascript规范
  4. 都在写抖音上的网红罗盘时钟,我也用vue仿写一个
  5. 5G(9)---5G基本概念及其发展概况
  6. 【ROS理论与实践-赵虚左老师】Chap2 ROS通信机制
  7. 从王者荣耀聊聊游戏的帧同步
  8. 【新年字体素材合集】2022年元旦新年艺术字体素材合集,元旦快乐呀
  9. 多因子跟庄吃肉 抓涨停指标公式 涨停主图指标 通达信 源码
  10. XCTF MISC base64stego