点击我爱计算机视觉标星,更快获取CVML新技术


允中 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

目标检测与实例分割是计算机视觉领域重要的两个任务,近年来出现了非常多优秀的算法解决这两个问题,且都取得了优异的效果。

但是,却鲜有文章深入分析两者之间的关联,也就导致了诸如下图所示的错误的出现:

上面的结果由Mask R-CNN得到,可以看到由于边界框定位不准导致前两张图的实例掩码缺失,以及后两张图的边界框与实例掩码不统一

最近,来自中科院自动化所的硕士生王绍儒提出的算法,很好地解决了以上问题,可以同时完成目标检测与实例分割任务,两个任务能相互辅助,同时取得了性能的提升。

论文一作王绍儒现在也是地平线公司的一名实习生,他的论文已被AAAI 2020收录,相关工作已经开源。

双流网络

这篇文章认为,目标检测属于目标级别的任务,这类任务更关注物体级别的特征,对分辨率的需求不高,但需要更多的高级语义信息。

而实例分割任务属于像素级别的任务,这类任务需要给出逐像素的输出,对分辨率的需求较高,需要更多的细节信息。

因此作者设计了如图所示的双流网络:

上面的object stream重点完成目标检测任务,可以是SSD, YOLO, RetinaNet等任一anchor-based的目标检测算法。

下面的pixel stream重点完成分割的任务,分辨率很高。

两个任务相互辅助

“物体”辅助实例分割:

目前常见的实例分割算法分为两类,一类是类似于Mask R-CNN的proposal-based的方法,是目标检测算法的直接扩展。

但这类方法会面临上文提到的诸多问题,得到的实例掩码分辨率相对较低且严重依赖于proposal的边界框。

另一类基于分割算法,首先预测每个点的嵌入,然后再通过聚类得到每个实例的掩码。

这类方法天然克服了proposal-based的缺陷,但一般无法端到端训练,且受限于聚类算法,性能一般有限。

仔细分析发现,聚类的难题主要源于聚类中心的缺失,换句话说,如果我们拥有每个簇的中心,我们就可以抛弃聚类算法,进行端到端训练。

而这个“中心”,应该是每个物体的嵌入,也就是说,它应该源于目标级别,而非像素级别。因此,也就形成了论文里提出的基于相关滤波的实例掩码生成算法:

Object stream和pixel stream分别提取目标和像素的嵌入,属于同一物体的像素和与其对应的物体具有相近的嵌入,相似性的衡量采用了内积相似度。

也就是说,对于每个检测到的物体,以其嵌入作为内核,在像素嵌入上执行相关滤波,即可得到这一物体的掩码。

除此之外,文中还充分利用了object stream得到的目标边界框,对距离物体中心较远的噪声进行了抑制,本质上是在一定程度上克服CNN的translation-variant对实例分割任务的影响。

“掩码”辅助目标检测:

边界框定位是目标检测的一项重要任务,而现有的方法大多采用回归的方式得到边界框的位置。然而我们回顾边界框的定义,发现它本身就是通过物体的掩码定义的。

那么,既然我们可以得到物体的掩码,为什么还要依赖于回归算法,多此一举呢?

文中通过实验发现,直接利用通过上述基于相关滤波方法得到的实例掩码生成边界框,精度并不太高,甚至低于回归方法得到的边界框。

文章作者通过可视化发现:大多数物体的掩码都可以提供十分准确的边界框,然而也存在部分物体的掩码预测结果不太理想,使得边界框出现了较大的偏移。

据此观察,文章提出了一种基于贝叶斯公式的边界框定位算法,首先将边界框定位定义为分类任务,将问题转化为给定物体掩码,坐标属于边界框的后验概率的预测:

然后利用贝叶斯公式,将回归得到的边界框作为先验概率P(X=i),而P(M’|X=i)则由物体实例掩码通过逐列(行)取最大、一维卷积和激活函数得到。

整体过程如下图所示:

此方法综合考虑了回归得到的边界框和实例掩码的优势,得到了更准确的边界框。

具体结果可以看下图,可以明显发现,由此方法得到的边界框可以以更高的IOU和ground truth box匹配。

实验结果:

文章在COCO数据集上进行了实验验证。

在实例分割任务中,此方法在单阶段算法中可以达到更优的速度与精度的平衡,以近3倍的速度取得了和TensorMask相近的精度,以相近的速度在YOLACT的基础上取得了2.3mAP的提升。

在目标检测任务中,此方法以极低的计算代价在不同的backbone上取得了一致的性能提升。

值得注意的是,文章中采用的是RetinaNet作为探测器,且在其基础上扩展到实例分割任务中并不会带来显著的计算量的增加,如果采用其他更先进的目标检测算法,其精度与速度还能取得更进一步的提升。

传送门

论文地址:
https://arxiv.org/abs/1912.05070

源代码:
https://github.com/wangsr126/RDSNet



技术交流群

关注最新最前沿的目标检测或者图像分割技术,加入对应交流群,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:检测 或者 分割)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

让目标检测和实例分割互相帮助,地平线实习生论文被AAAI 2020收录相关推荐

  1. 一个算法同时解决两大CV任务,让目标检测和实例分割互相帮助,地平线实习生论文被AAAI 2020收录...

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 目标检测与实例分割是计算机视觉领域重要的两个任务,近年来出现了非常多优秀的算法解决这两个问题,且都取得了优异的效果. 但是,却鲜有文章深入 ...

  2. CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020)

    CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020) 目标检测:FCOS(CVPR 2019) 目标检测算法FCOS(FCOS: ...

  3. Anchor-free应用一览:目标检测、实例分割、多目标跟踪

    作者|杨阳@知乎 来源|https://zhuanlan.zhihu.com/p/163266388 从去年5月开始,我一直对Anchor-free工作保持着一定的关注.本次借组内的paper rea ...

  4. 谷歌简单粗暴“复制-粘贴”数据增广,刷新COCO目标检测与实例分割新高度

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,谷歌.UC伯克利与康奈尔大学的研究人员公布了一篇论文 Sim ...

  5. CVPR2021|Anchor-free新玩法,一个head统一目标检测,实例分割,姿态估计三种任务...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文转自小马哥@知乎,https://zhuanlan.zhihu.com/p/366651996. ...

  6. RDSNet:统一目标检测和实例分割的新型网络

    本文对<RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation> ...

  7. Anchor-free新思路,统一目标检测、实例分割、姿态估计三种任务

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:https://zhuanlan.zhihu.com/p/366651996(授权转载) 作者:小马哥,编辑: ...

  8. mask rcnn属于dnn么_基于OpenCV DNN的 MaskRCNN 目标检测与实例分割

    这里主要记录基于 OpenCV 4.x DNN 模块和 TensorFlow MaskRCNN 开源模型的目标检测与实例分割 的实现. MaskRCNN 不仅可以检测图片或视频帧中的物体边界框,还可以 ...

  9. 2023-一种无监督目标检测和实例分割方法【Cut and Learn for Unsupervised Object Detection and Instance Segmentation】

    Cut and Learn for Unsupervised Object Detection and Instance Segmentation 无监督目标检测和实例分割的剪切与学习 Faceboo ...

最新文章

  1. python5_python5
  2. c语言区间,C 语言实例 – 循环输出区间范围内的奇数/偶数 | 菜鸟教程
  3. Arachni web扫描工具
  4. 关于数据准确性,精益求精,神策数据矢志不渝的坚持
  5. 【原】Mac下统计任意文件夹中代码行数的工具——cloc
  6. Ajax中什么时候用同步,什么时候用异步?
  7. BaseColumns类的作用
  8. 控制器布局 php,PhalconPHP视图/布局/控制器
  9. websocket实时聊天(一)
  10. 不确定性原理的前世今生 · 数学篇(一)
  11. 前端案例:飞机大战( js+dom 操作,代码完整,附图片素材)
  12. python3怎么运行代码_python怎么运行代码
  13. 用计算机信息术语感恩老师,赞美老师锦旗用语大全 感恩老师的句子
  14. 怀孕后可使用计算机吗,怀孕可以用电脑工作吗?使用须适当
  15. 《图形图像处理》— 使用matlab对图像进行二值化和灰度化处理
  16. ORA-20005 统计信息被锁定
  17. PHP5.4发布:新特性与改动
  18. C#网络爬虫抓取小说
  19. gbase 8d客户端功能事项
  20. 【网络流】【二分图最大匹配】Buaacoding1043 难题·Beihang Couple Pairing Comunity 2017

热门文章

  1. 算法竞赛——快速排序
  2. 从0开始详解 Johnson 全源最短路(P5905 【模板】Johnson 全源最短路)
  3. win10服务器文件夹显示不全,如何让Win10文件夹始终显示功能区有哪些方法
  4. python如何把数字转化成字符_python 定义一个dictpython如何将数字转化为字符串
  5. md5加密工具类_贼好用的 Java 工具类库! GitHub 星标 10k+,你在用吗?
  6. rdd分片 spark_大数据面试题(Spark(一))
  7. linux qq多进程客户端,基于多进程QQ聊天软件设计.doc
  8. java invoke int long,将Long转换为Integer
  9. python怎么控制小数点位数_谈谈关于Python里面小数点精度控制的问题
  10. oracle将原表数据加入新建表,Oracle新建用户并将原有表结构数据迁移,修改密码...