想要进行图像分割,传统方法是先检测图中物体,在进行分离。在本文中,来自清华大学、腾讯AI研究室和英国卡迪夫大学的研究者们提出了一种新型分割图像中人物的方法,基于人物动作辨认。以下是论智对原文的编译。

src="http://www1.elecfans.com/www/delivery/myafr.php?target=_blank&cb=0.035722687479492476&zoneid=813&prefer=http%3A%2F%2Fwww.elecfans.com%2Fd%2F659690.html" width="675" height="302" scrolling="no">

图像分割的一般方法是先对物体进行检测,然后用边界框对画中物体进行分割。最近,例如Mask R-CNN的深度学习方法也被用于图像分割任务,但是大多数研究都没有注意到人类的特殊性:可以通过身体姿势进行辨认。在这篇论文中,我们提出了一种新方法,可以通过人作出的不同动作进行图像分割。

多人姿态辨认的目的是分辨图像中每个人物的动作,这些需要通过身体部位判断,比如头部、肩膀、手部、脚等等。而一般的对象分割实例旨在预测图像中每个对象的像素级标签。要想解决这两个问题,都需要检测目标物体并将它们分离,这一过程通常被称为目标检测。但是由于二维图像所含信息较少,导致想分离两个重叠的同类图像非常困难。对于目标检测,有许多强有力的基准系统,例如Fast/Faster R-CNN、YOLO,它们都遵循着一个基本规则:先生成大量proposal regions,然后用非极大抑制删除重复区域。但是,当两个相同类别的物体重叠时,NMS总是将其中一个视为重复的proposal region,然后删除它。这表明几乎所有的目标检测都不能处理大面积重合的问题。

尽管在许多多人姿态识别任务中都选用了这种框架,一些不依赖于目标检测的bottom-up方法也取得了良好性能。Bottom-up方法的主要思想是首先在所有人身体上找几个关键点。如图1所示:

图1

这种方法有几个优点,首先,运行成本不会随着图像中人数的增加而增加;其次,两个重叠在一起的人物可以在连接身体部位时分开,如图2所示,使用人体姿势可以改善目标检测中物体重叠的问题。

图2

新方法Pose2Seg

基于人体姿势识别,我们提出了一种端到端的物体分割框架,整体框架如图3所示,它将图片和姿势识别结果一同作为输入:

图3

然后我们使用一个对准模块,基于人体姿势检测结果(称为Affine Align),将感兴趣区域(ROI)对齐为统一大小(64×64)。同时,我们为图中的每个人物生成骨架特征,并将它们连接到ROI。最终实验表明,将骨骼信息明确地添加到网络中可以在图像分割中提供更好的信息。

AffineAlign

人类的动作种类多且复杂,想要进行图像分割是很困难的。基于Faster R-CNN和Mask R-CNN中的ROIAlign,我们提出了AffineAlign操作。但是与它们不同的是,我们是基于人物的动作对齐,而不是边界框。通过人类动作蕴涵的信息,AffineAlign操作可以把奇怪的人类动作拉直,然后将重叠的人分开,具体过程可看图4:

图4

同时,我们还研究了人类骨骼的特征,我们用部分亲和字段(PAF)重现某个动作的骨骼结构,PAF是一个有两通道的向量字段映射,如果COCO数据集中有11个骨骼标记,PAF就是一个有22个通道的特征映射。

实验过程

我们选用了COCO数据集,它是人类图像数量最多的公开数据及,其中我们将其分成了COCOHUMAN和COCOHUMAN-OC两个数据集,前者是有中等和大型目标物体的人类数据集,并对其中的动作进行了标注;后者是有较多重叠对象的图像,共有44张图。COCOHUMAN-OC中的一些样例如图所示:

首先是在COCOHUMAN上,本文提出的方法与Mask R-CNN进行对比:

其他AffineAlign操作,a代表输入的图像,b代表在原图上锁定目标,c代表AffineAlign操作的结果,d代表分割结果

然后是在COCOHUMAN-OC上的实验对比:

我们的方法与Mask R-CNN在处理重叠图像上的表现。我们方法中的边界框使用预测掩码生成的,能更好地进行可视化和对比

上表显示,我们提出的基于动作姿势的框架比基于图像检测的框架表现得好。由于非极大抑制,一些基于检测的框架,如Mask R-CNN无法处理大面积重叠的现象。即使目标物体能被分离,仍然有一部分无法算入其中。但是在这种新框架下,我们做到了让整个身体都被分离的结果。

一种新型分割图像中人物的方法,基于人物动作辨认相关推荐

  1. OpenCV学习笔记(二):3种常用访问图像中像素的方式

    OpenCV学习笔记(二):3种常用访问图像中像素的方式 #include <opencv2/opencv.hpp>using namespace cv; using namespace ...

  2. 红外目标图像中阈值切割方法的比較与研究

    红外目标图像中阈值切割方法的比較与研究   摘要:本文主要以红外图像目标检測技术为背景,在图像阈值切割中以最大熵准则及遗传算法为基础.研究了一维最大熵值法(KSW法)及基于遗传算法的KSW熵法单阈值. ...

  3. linux检测到文件更新执行,一种更新Linux系统中文件的方法及操作方法专利_专利查询 - 天眼查...

    1. 一种更新Linux系统中文件的方法,其特征在于,包括在基于Linux系统的电视的主 程序中设计一个功能接口,该功能接口在电视系统检测到外部存储设备接入时被调用,所 述功能接口实现以下内容: A: ...

  4. 一种新型鱼眼图像轮廓提取算法

    from: http://www.scimao.com/read/2307651     摘 要:提取鱼眼图像轮廓是利用鱼眼图像的前提.传统提取鱼眼图像轮廓的扫描线逼近法对噪点抑制能力不强,精度差.本 ...

  5. 像素旋转:一种在加密图像中实现安全的可逆数据隐藏方案

    文章目录 前言 一.提出的PR-RDHEI方案 二.算法步骤简介 1.图像加密 2.数据嵌入(重点) 3.图像恢复(重点) 总结 收获与思考 前言 原文题目<Reversal of pixel ...

  6. 4种语义分割数据集Cityscapes上SOTA方法总结

    本文分享自华为云社区<语义分割数据集Cityscapes上SOTA方法总结>,原文作者:fdafad. 1 Cityscapes数据集介绍 Cityscapes评测数据集即城市景观数据集, ...

  7. matlab提取遥感图像的点DN值,一种高分辨率遥感图像去雾霾方法

    4 实验验证与分析 实验对象为两颗国产亚米级高分辨率遥感卫星图像, 即GF-2和Superview-1图像.两颗卫星参数如表1所示.其中, GSD为地面采样距离, 即空间分辨率; PAN表示全色谱段; ...

  8. 【图像处理】一种低光照图像的亮度提升方法(Adaptive Local Tone Mapping Based on Retinex for High Dynamic Range Images)

    [fishing-pan:https://blog.csdn.net/u013921430 转载请注明出处] 前言   在实际的拍照过程中,常常会遇到,光线不足的情况.这时候单反用户一般会调大感光度, ...

  9. 心电电路算法滤波_一种新型心电信号滤波电路的制作方法

    本实用新型涉及信号滤波技术领域,具体是一种新型心电信号滤波电路. 背景技术: 随着社会进步.人们生活水平的不断提高,心血管疾病已经日益成为威胁人们健康的主要疾病之一.国际医学界对心血管疾病的早期预测和 ...

最新文章

  1. 2019最新版本的PanDownload纯净版,网盘满速下载和搜索神器,追剧和动漫新番必不可少的下载工具【亲测有效】
  2. 再学Android之多线程
  3. Qt5 和 Qt4 的一些改动和不同
  4. 进度条(python 实现)
  5. win7操作系统上,批处理文件,直接双击的时候,能运行起来。但是以管理员身份运行的时候,都闪退。请问,这是怎么回事?...
  6. 传递子类 java_Java,将主类传递给子类,错误的编码风格?
  7. Django-视图层
  8. Kali linux 渗透测试技术之搭建WordPress Turnkey Linux及检测WordPress 应用程序漏洞
  9. Python 函数声明和调用 - Python零基础入门教程
  10. Android4.0设置界面修改总结
  11. burp proxy 过滤_burpsuite只拦截特定网站数据包教程
  12. 符合W3C标准的target=_blank形式
  13. 不同计算机用户的区别是什么意思,电脑的系统64位和32位是什么意思呢?
  14. Access denied for user ''@'localhost' to database 'mysql‘’
  15. matlab多元函数拟合,只有数据,不知道函数形式,未知函数关系的多元函数拟合
  16. 生成订单:三个表(Products,Orders,OrderItem)
  17. iOS系统越狱研究现状梳理
  18. MySQL 正负数排序
  19. android模拟器MAC无法联网(安卓开发)
  20. 树莓派安装基于python的opencv

热门文章

  1. 潮流话机直接对接讯时FXO
  2. 学生搭配问题数据结构报告c语言,数据结构课设学生搭配问题
  3. Dlink DIR-615L 和 Mercury MW300R WDS 应用举例
  4. 微信小程序开发工具第一次使用,网络连接不上怎么办
  5. 回溯法-符号三角形问题
  6. html js 打印 图片不显示 canvas
  7. centos桌面版配置ip_CentOS7安装GNOME可视化界面和如何配置IP地址
  8. [0893]《兽医外科学》
  9. 储备物资管理局计算机,国考报名税务过审居首 储备物资管理局最抢手
  10. PowerMILL 2018四五轴编程后处理宏制作视频教程