点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:京东探索研究院

人像抠图,是指从人物图像中提取人物前景,是计算机视觉领域的基础研究问题之一[1,2,3,4,8],在下游任务上应用非常广泛,例如视频会议,电影制作,直播软件等等[7]。鉴于人物图像中经常包含人脸等个人核心隐私,如何防止该类信息被滥用成为一个很重要的问题。然而,之前所有的人像抠图方法都忽略了对于人像隐私信息的保护。使得如何在保护隐私信息的同时,取得高精度的人像抠图结果,成为一个未被探索过的开放问题。

最近,探索研究院联合悉尼大学、Adobe等机构,首次提出面向人像隐私保护的人像抠图任务,并构建了一个目前为止最大型的人像抠图数据集P3M-10k,涵盖10,421张保护了人脸隐私的训练集和两个没有人像隐私问题的测试集。此外,我们基于vision transformer设计了一种端到端的人像抠图模型P3M-Net, 在只使用人像隐私保护的数据训练之后,在多个公开的人像测试集都取得了最优的结果。

模型训练均不涉及人像隐私数据,解决了人像抠图任务中的隐私保护问题。

01

研究背景

近期,由于多媒体行业的兴盛,全自动化人像抠图成为一个备受关注的方向[3,4]。然而,如何解决人像抠图任务中涉及到的人脸信息的隐私问题,成为一个未被关注和研究的领域。在本项研究中,我们提出了一个人像抠图新任务,探索如何在不涉及人脸隐私信息的同时能达到高精度人像抠图结果。为了促进该新任务的研究和评估,我们构建了一个目前为止最大的隐私保护的人像抠图数据集P3M-10k。

此外,以前的人像抠图方法大多需要使用人为生成的辅助信息(三分图,粗糙的分割图,草图等)来帮助完成抠图。而仅有的几种全自动人像抠图网络也是基于CNN的单分支编码-解码网络。不同于上述方法,我们设计了一种全新的基于vision transformer的多分支全自动抠图网络,在诸多公开的人像数据测试集上达到了最优的表现。

02

PPT 任务 和 P3M-10k数据集

为了探索如何在不涉及人脸隐私的同时达到高精度人像抠图,我们提出了一个新的任务,在人脸被保护的抠图数据上进行训练,让模型能够泛化到任意图像上,包括人脸隐私被保护的图像和普通完整人像。我们称之为Privacy Preserving Training (PPT) 任务。

为了探索PPT任务,我们构建了目前为止最大的具备隐私保护的人像抠图数据集 P3M-10k。P3M-10k包括了10,421张人脸隐私被保护的图片,和对应的精细抠图标注。其中训练集有9,421张人脸被遮挡的高清人像图片。测试集分为两个: (1) P3M-500-P提供了500张人脸隐私信息被遮挡的人像及高精度标注,用以验证模型在隐私保护情况下的抠图效果; (2) P3M-500-NP则提供了500张名人的人像图像,其人脸信息是可公开的,用以验证模型在普通完整人像上的泛化能力。下图展示了数据集中的部分图片和精细抠图标注。(a) 训练集样张 (b) 测试集 P3M-500-P 样张 (c) 测试集 P3M-500-NP样张。左图为人像,右图为标注信息。

我们在P3M-10k数据集上训练并测试了现有的抠图算法,包括基于辅助信息的抠图方法和全自动抠图方法,并且进一步探讨了因为隐私保护(即PPT任务)而产生的模型泛化能力的差异。具体实验结果可见论文[1,2]。实验结果表明,大部分的全自动抠图方法都因为采用了人脸被保护的数据进行训练,能够在人脸被遮挡的图片上表现良好,却无法很好地泛化到普通完整的人像图片上。如何缓解全自动抠图方法泛化性能差的问题,是本项研究的目标之一。另外,我们也发现由一个共享编码器,和两个不同任务的解码器组成的结构能够有效缓解因隐私保护而产生的抠图模型泛化能力差的问题。基于此,我们设计了全新的单编码器-双解码器的人像抠图模型P3M-Net。

03

全新端到端抠图网络 P3M-NET

首先,我们将全自动化人像抠图任务分解成人像语义信息获取和人像细节信息提取两个子任务。基于此,我们设计的P3M-Net由一个共享的编码器和两个分开的解码器组成,分别进行共同特征提取和完成上述两个子任务。我们还设计了一个三方特征融合模块,为了促进两个子任务之间的信息交互,使得预测错误可以在深层网络里被逐步纠正。此外,我们还额外设计了一个深层双向特征融合模块和浅层双向特征融合模块来确保每个子任务与其对应的不同层次的编码进行充分的融合。后续的实验验证了我们所提出的三个模块的作用。

另外,我们也探究了使用CNN和vision transformer作为编码模块的性能差异。具体的,我们使用了ResNet-34[9], Swin Transformer[10]和ViTAE Transformer[5,6]作为我们的基础模块。我们观察到,Swin相比于ResNet, 鉴于它具有更好的长距关系建模能力,使得它对于语义层面的提取能力更强。相比于CNN和Swin,ViTAE在具有长距关系建模能力的同时,还保有CNN的局部性和不变性建模能力,使其具有很强的语义提取能力,同时对于人物图像中细节的感知能力也更胜一筹。我们在后面的主观和客观结果中都说明了这一点。

04

隐私数据训练的影响与研究

尽管P3M-Net模型缓解了PPT任务下对于普通人像上的泛化性能降低的问题,但依然存在人脸部分虚化,前后景语义错误的情况。为了进一步解决这个问题,我们提出了Copy and Paste (P3M-CP) 模块。这是一个即插即用的模块,能够将可公开的人脸信息注入到任意抠图模型中,有效缓解PPT设置带来的泛化性能下降的问题。

P3M-CP 模块能够在数据和特征两个层面提取公开的名人人像中的人脸信息,用 “copy and paste” 的模式注入到模型中,补充训练阶段的缺乏的人脸信息,因此提升模型在完整人像上的泛化能力。下图中展示了P3M-CP如何从source domain(名人数据)向target domain(隐私保护下的训练数据)注入信息的过程。具体的,P3M-CP可以在数据层面(P3M-ICP)和特征层面(P3M-FCP)上分别进行。

05

实验结果

为了验证P3M-Net 模型在人像抠图下的效果,我们在P3M-10k 的训练集上进行训练,在两个测试集上进行验证。其中P3M-500-P测试集能够验证模型在隐私保护下的抠图效果,而P3M-500-NP测试集则可以检验模型在人脸被模糊的情况下训练后在完整人像上的泛化能力。我们采用了MSE, SAD, GRAD, CONN等评价指标。客观结果如下表所示。主观效果如下图所示。可以看出,我们所有的P3M-Net变种都超越了目前所有的前沿抠图模型,优势明显。

另外,我们在Adobe发布的 RWP test set上也进行了测试,进一步验证模型的性能。我们的模型均由P3M-10k训练集进行训练,在RWP test set上直接测试。测试结果如下。可见,P3M-Net依然表现最优,证明了其具有很强的跨数据集泛化能力。

另外我们对P3M-CP 模型进行了消融实验,实验结果证明P3M-CP在大部分模型上都能够显著提升对普通图像的泛化能力,甚至达到了和在普通图像上训练一致的效果。值得注意的是,P3M-Net ViTAE 模型由于自身已经具有了优异的泛化能力,在不加任何模块的情况下,也能够取得非常满意的泛化效果。

未来我们将在模型设计和训练方法层面,进一步研究隐私保护下的人像抠图问题。针对视频数据,研究轻量化人像抠图模型,降低模型复杂度,提升推理速度。我们希望本项研究能促进社区关注人像抠图任务中的隐私保护问题,并进一步激发相关问题的深入研究。

论文链接

https://dl.acm.org/doi/10.1145/3474085.3475512

https://arxiv.org/abs/2203.16828

Github链接

https://github.com/JizhiziLi/P3M
https://github.com/ViTAE-Transformer/ViTAE-Transformer-Matting

参考文献

1. Li, J., Ma, S., Zhang, J., & Tao, D. (2021, October). Privacy-preserving portrait matting. In Proceedings of the 29th ACM International Conference on Multimedia (pp. 3501-3509).

2. Ma, S., Li, J., Zhang, J., Zhang, H., & Tao, D. (2022). Rethinking Portrait Matting with Privacy Preserving. arXiv preprint arXiv:2203.16828.

3. Li, J., Zhang, J., Maybank, S. J., & Tao, D. (2022). Bridging composite and real: towards end-to-end deep image matting. International Journal of Computer Vision, 1-21.

4. Li, J., Zhang, J., & Tao, D. (2021). Deep Automatic Natural Image Matting. In Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, {IJCAI-21}

5. Xu, Y., Zhang, Q., Zhang, J., & Tao, D. (2021). ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias. NeurIPS 2021.

6. Zhang, Q., Xu, Y., Zhang, J., & Tao, D. (2022). Vitaev2: Vision transformer advanced by exploring inductive bias for image recognition and beyond. arXiv preprint arXiv:2202.10108.

7. Zhang, J., & Tao, D. (2020). Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things. IEEE Internet of Things Journal, 8(10), 7789-7817.

8. Levin, A., Lischinski, D., & Weiss, Y. (2007). A closed-form solution to natural image matting. IEEE transactions on pattern analysis and machine intelligence, 30(2), 228-242.

9. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

10. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., ... & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022).

THE END

点击进入—> CV 微信技术交流群

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

目前最大的人像抠图数据集P3M-10k开源了!助力隐私保护的人像抠图研究相关推荐

  1. Supervisely 人像分割数据集

    Supervisely 人像分割数据集包含 5711 张图片, 6884 个人像注释. 这是一个比 Coco 标注质量更高的人像分割数据集. 标注图像示例: 关于数据集的更多信息,参考这篇博客. 获取 ...

  2. 图片抠图怎么抠干净?学会这几种方法轻松抠图

    通过图片抠图,可以轻松地将一个对象从原始背景中分离出来,并将其粘贴到新的背景中.这使得背景更换变得非常方便,例如将一个人的照片放在不同的背景中,以获得不同的效果.这项技术可以用于许多不同的应用场景,例 ...

  3. 抠图后怎么和背景自然融合?融合背景的抠图技术介绍

    抠图后怎么和背景自然融合?不知道大家有没有遇到这样的情况,抠图之后发现人物和背景十分的突兀,甚至抠图的边缘十分的不平滑.这个都因为我们在进行抠图处理的时候没有处理好,这里小编就来给大家分享几款十分好用 ...

  4. python抠图精确到发丝_Python用5行代码实现批量抠图的示例代码

    前言 对于会PhotoShop的人来说,抠图是非常简单的操作了,有时候几秒钟就能扣好一张图.不过一些比较复杂的图,有时候还是要画点时间的,今天就给大家带了一个非常快速简单的办法,用Python来批量抠 ...

  5. 安卓最好的浏览器_今日软件 | AI一键抠图、隐私保护工具、全能下载器、安卓启动器、茄子快传、迅雷、批量字符替换、傲游浏览器、全局负一屏...

    今日软件更新 安卓APP 「SHAREit」5.7.18 # 茄子快传,手机文件传输工具 ▾下载:https://lanzoux.com/iyyn4hdfs9c 「QuickEdit」1.7.0 # ...

  6. 交通系统速度预测综述:从车辆到交通【公共交通数据集】【开源模型整理】

    交通系统速度预测综述:从车辆到交通[公共交通数据集][开源模型整理] 分享这篇综述,希望对大家有帮助.如有错误,请多指正! Zewei Zhou, Ziru Yang, Yuanjian Zhang, ...

  7. 【知识星球】几个人像分割数据集简介和下载

    欢迎大家来到<知识星球>专栏,今天给大家介绍一下人像分割相关的几个数据集,并提供下载. 作者&编辑 | 言有三 有三AI知识星球的"数据集"板块中已经提供了非常 ...

  8. 人像抠图软件哪个好?这些软件助你实现人像抠图

      喜欢拍照修图的朋友,平时少不了需要抠图.不过对于很多新手小白来说,会有点麻烦,特别是在抠人像.处理头发丝的时候,一不小心就会处理得不自然.想要完成人像抠图,其实我们可以使用一些专业工具来实现.下面 ...

  9. unity随机方向的代码_ECCV 2020 目前用于车辆重识别(vehicle reID)中最大的合成车辆数据集(代码开源)...

    论文题目: Simulating Content Consistent Vehicle Datasets with Attribute Descent 论文地址: https://arxiv.org/ ...

最新文章

  1. MySQL数据库实用教程考核_《MySQL数据库实用教程》郑明秋,蒙连超,赵海侠【pdf】...
  2. Evaluation of hybrid and non-hybrid methods for de novo assembly of nanopore reads
  3. grape动态PHP结构(三)——API接口
  4. Doctype文档类型学习小结
  5. tomcat启动不了,报java.lang.Exception: Socket bind failed: [730013] ???
  6. 浅谈巴拿马电源的谐波消除原理
  7. 【Github上有趣的项目】基于RNN文本生成器,自动生成莎士比亚的剧本或者shell代码(不是python的是lua的)
  8. 【Pytorch神经网络实战案例】17 带W散度的WGAN-div模型生成Fashon-MNST模拟数据
  9. System memory,AGP memory和video memory
  10. WinPE作为启动硬盘
  11. java 链表反转_面试必备 | 不可不会的反转链表
  12. 基于java+jsp的户籍管理系统
  13. python微博评论情感分析_用python对鹿晗、关晓彤微博进行情感分析
  14. PAT 1044 火星数字
  15. 【Python】python基础编程回顾(4)
  16. C语言union总结
  17. 什么是隐性知识?显性知识?
  18. 为什么我从PR里面导出来的视频,在电脑上播放是正常的,微信发给朋友后,形状就变了,扭曲了一样的
  19. MySQL安装1045错误代码解决方案
  20. CF/TC 做题计划

热门文章

  1. 电影对白之——《返老还童》
  2. ddd理论层次-by banq
  3. android v4 v7重复依赖问题深究
  4. TabHost及ActivityGroup的使用总结
  5. 什么是闭包?闭包形成的必要条件?
  6. 是我不懂珍惜。现在不属于我了。
  7. springboot使用druid配置多数据源和jdbctemplate写业务
  8. 【无人机路径规划】基于深度强化学习的多无人机辅助边缘计算网络路径规划(Matlab代码实现)
  9. 【前端】Ant Design Pro和Arco Design Pro非技术对比
  10. 机器人专用符文_LOL机器人辅助符文天赋加点图