人脸检测&识别依然是CV领域炙热的研究课题,不仅仅应用在各种刷脸产品,现在很多多媒体都在利用这个技术,与艺术融合,擦除不一样的火花,今天我们就来和大家分享,漫画中的人脸检测,与之前漫画人物自动填色相似,都是比较新颖,相信之后,会有更多的人脸技术应用到各个领域。

导读】随着越来越多的日本漫画数字化书籍的问世,人们迫切需要高效、有效地获取漫画。在漫画的各种元素中,人物脸在获取和检索中起着重要的作用。今天讲解的作者提出了一种基于深度神经网络的人脸检测方法,这是一个很有挑战性但相对较少探索的课题。给定一个漫画页面,首先根据选择性搜索方案找到候选区域,然后提出了三种卷积神经网络来检测不同形状的人脸。从整个目标区域和多个局部区域提取信息,并以早期融合或后期融合的方式集成多尺度信息。所提出的方法是基于大规模基准的评估。与目前最先进的人脸检测模块相比,该模块具有令人信服的性能。

背景

Manga(日本漫画)是世界上最大的图书销售之一。虽然这本书市场暴跌,在日本,编译的Manga书籍的市场一直在创造创纪录的高销量,2014年达到24亿美元左右。随着越来越多的漫画书籍需要对Manga进行数字化、有效的访问和检索。

在各种不同的索引和检索方法中,认为角色的人脸是最重要的项目之一访问Manga。人脸检测是许多计算机视觉和多媒体应用的基本步骤。

对自然图像进行了广泛的研究,但是很少已经为Manga提出了研究。在自然图像和Manga中的人脸之间存在至少三个差异

首先,在大多数Manga中,只有黑白和有时灰色信息是可用的,与自然图像中的颜色信息不同。第二,在不同的漫画中脸部有极端的变化。如下图(a)和图(b)显示两个正常正面,而图(c)和图(d)显示出显著不同的视觉外观,尤其是眼睛上的视觉外观。第三,Manga面部并不完全拥有人面部的属性。空间布局、视觉外观Manga人脸的表达可能不是物理上合理的(图(e)和图(f))。

进一步展示Manga人脸与人脸之间的差异及必要性提出了一种面向Manga人脸的专有方法,采用MTCNN提取特征分别来自两种类型的人脸并在下图中展示出特征分布。它被认为是用于面部检测和面部对准的特征是相关的。

因此,MTCN正在提出级联的卷积网络,以共同实现这两个任务。这网络由三个阶段组成。第一阶段是一个候选网络(P-Net),其估计可能包含(人类)人脸的边界框。第二阶段是细化网络(R-Net),拒绝大量虚假候选人。第三级是输出网络(O-Net)识别具有更多监督和输出人脸关键点“位置”的面部区域。分别将P-Net、R-Net和O-Net的最后一层的输出作为显示面部特征的特征。

上图(b)和上图(c)显示了从CelebA分离集中随机选取的100个人脸的平均特征分布,分别由P-net和R-net提取。上图(e)和图(f)显示了分别由P-net和R-net提取的Manga 109数据集中100个随机选取的漫画面的平均分布情况。对比上图(b)和图(e),我们发现,从P-net的角度来看,人类脸和漫画脸的平均特征分布是非常不同的。从R-net的角度,图(c)和图(f)也可以看到类似的特性。

事实上,O-Net提取的特征也显示出类似的趋势。面对上述挑战,漫画人脸检测与真实人脸检测有着显著的不同。虽然实际人脸检测已经进行了几十年的研究,并提出了许多高性能的检测方法,但在漫画中直接应用这些方法并不能很好地实现人脸检测。

上图分别显示了OpenCV、Microsoft Azure人脸检测API和新技术的检测结果。如图(1)所示,OpenCV方法(用漫画数据进一步训练)错误地检测到许多不是漫画脸的区域。图(2)显示,最先进的人脸检测API在精度上要好得多,但许多漫画人脸无法被成功检测。针对现有人脸检测系统不适用于漫画人脸的现状,提出了一种专门针对漫画人脸的人脸检测方法。

新技术方法

处理Manga面部检测问题的一个观点是将其视为空间对象检测问题。根据轮廓、形状、纹理的各种视觉特征,以及颜色对比,提出了大量的方法来进行对象匹配或对象检测。由于开发了深度神经网络,最近非常令人印象深刻,已针对自然图像/视频提出了物体检测和识别模型。然而,这些模型是基于大量自然图像构建的。使用的深层网络在Manga人脸检测中的应用需要专门设计的系统集成。

在此新技术的工作中,集成了在深度学习之前设计的区域候选方法。采用专门设计的深层网络进行Manga人脸检测,上图显示所提出的方法的概述。

给定Manga页面,首先采用选择性搜索方案检测可能包含对象的区域。然后,通过以下步骤对每个区域进行检查:

  • 候选的深层神经网络命名为Manga FaceNet(MFN),以了解该区域是否是一个Manga的脸。为了准确地将区域识别为面部,最好在分类器中联合地考虑局部特征全局特征

  • 有了这个想法,于是设计了Manga FaceNet的三种版本,分别对应于基线MFN,MFN早期融和MFN后期融合。

  • 在早期融和版本中,连接全局特征有四个局部特征进行分类。

  • 在后期融和版本中,采用全局特征进行预处理,然后采用四个局部特征来细化结果。

数据准备

最近,深度学习的力量已经在许多领域得到了证明。不仅用于自然图像的图像分类或目标检测,而且用于分析草图或线条图。因此,作者建议构建一个名为Manga FaceNet的深层神经网络来完成这项任务。

在对网络进行训练之前,从Manga 109数据集中随机选取24个漫画标题,并从每个标题中选取前60个漫画页面作为评价数据集。对于每一页,手动定义每个漫画人脸的边框。

整体而言,有3760张正面脸和1110张侧面脸。对于深度神经网络的训练,这种有限的训练数据是不够的。因此,提出了以下数据增强策略

为了增加训练人脸的数量,用两种方法增加了数据集。

首先,对于每个漫画页面,使用选择性搜索方案来查找对象区域。对于每个目标区域O,计算了它与其空间上最近的真实边界框B之间的重叠比:

重叠比大于0.7的区域被视为正例子,而重叠比小于0.3的区域被视为负例子。下图通过显示一些示例说明了这种增强。左列的图像是四个漫画面的真实图,中间列的图像是对应的正样本的一部分(即重叠比大于0.7),右边列的图像是阴性样本的一部分(即重叠比小于0.3)。

第二种增强数据的方法是水平翻转由第一方法选择的阳性样本。该方法广泛应用于深度学习的数据增强中,能够增加数据的变化。

总的来说,这两种方法增加了数据的变化,并且在很大程度上增加了7174个正面人脸和1596个侧面人脸的训练量。

算法框架详解

Manga FaceNet框架

对于Manga FaceNet的底层分支,试图进一步考虑给定训练区域对其相应的地面真实度的空间位移,以便更精确地评价一个区域作为漫画人脸的优点。选择性搜索方案可以检测部分或过度覆盖人脸区域的对象区域。

下图显示了检测到的区域与相应的漫画人脸之间关系的三个示例。

使用左上角的坐标以及宽度和高度来表示区域。在最左边的图中,检测到的区域(虚线)的左上角必须向右向下移动,区域的宽度和高度应该更小。在中间图中,检测区域的左上角必须向右上移动,其宽度应增加,高度应减小。在最右边的图中,检测到的区域的左上角必须向左移动,并且它的高度应该增加。

融合Manga FaceNet

Anwer等人(R. AnwerF. S. Khan, J. van de Weijer, and J. Laaksonen, “Tex-nets: Binary patternns encoded convolutional neural networks for texture recognition,” in Proceedings of ACM International Conference on Multimedia Retrieval, 2017, pp. 125–132.)研究了两种深层结构,即早期和晚期融合,以结合纹理和颜色信息

在新工作中,设计了两种版本的融合Manga FaceNet,将信息与全局脸部和局部脸部部分结合起来。

早期融合中,合并来自多个区域的信息以进行分类;在晚期融合中,根据全局人脸模型和四个局部结果分别获得分类结果人脸模型。下图早期融合:

上图展示了后期融合的概念。同样,通过选择性搜索检测到的候选区域被划分为四个局部区域。全局区域被输入到VGG-16模型,然后是一个包含256个节点的全连接层,以提取特征并进行分类。

第一种cnn模型分类为正面或侧视面的区域,通过检查其对应的局部区域而得到进一步的细化。四个局部区域被输入到四个cnn模型,然后是一个包含256个节点的全连接层,以提取特征并进行第二轮分类。如果两个以上的局部区域也被归类为正面或侧视面,则原始的全局区域最终被确认为漫画人脸。

实验结果

不同方法的比较结果

不同微调策略给出的性能变化

(a) OpenCV trained with manga; (b) Microsoft Azure face API; (c) Manga FaceNet; (d) Late fMFN.


如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

我们开创一段时间的“计算机视觉协会”知识星球,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

微信学习讨论群,我们会第一时间在该些群里预告!

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)相关推荐

  1. java计算机毕业设计健身房信息管理系统MyBatis+系统+LW文档+源码+调试部署

    java计算机毕业设计健身房信息管理系统MyBatis+系统+LW文档+源码+调试部署 java计算机毕业设计健身房信息管理系统MyBatis+系统+LW文档+源码+调试部署 本源码技术栈: 项目架构 ...

  2. java计算机毕业设计高校学生综合服务信息平台MyBatis+系统+LW文档+源码+调试部署

    java计算机毕业设计高校学生综合服务信息平台MyBatis+系统+LW文档+源码+调试部署 java计算机毕业设计高校学生综合服务信息平台MyBatis+系统+LW文档+源码+调试部署 本源码技术栈 ...

  3. java计算机毕业设计高校贫困生信息管理系统MyBatis+系统+LW文档+源码+调试部署

    java计算机毕业设计高校贫困生信息管理系统MyBatis+系统+LW文档+源码+调试部署 java计算机毕业设计高校贫困生信息管理系统MyBatis+系统+LW文档+源码+调试部署 本源码技术栈: ...

  4. java计算机毕业设计健康饮食信息管理系统MyBatis+系统+LW文档+源码+调试部署

    java计算机毕业设计健康饮食信息管理系统MyBatis+系统+LW文档+源码+调试部署 java计算机毕业设计健康饮食信息管理系统MyBatis+系统+LW文档+源码+调试部署 本源码技术栈: 项目 ...

  5. java计算机毕业设计web校园信息管理系统MyBatis+系统+LW文档+源码+调试部署

    java计算机毕业设计web校园信息管理系统MyBatis+系统+LW文档+源码+调试部署 java计算机毕业设计web校园信息管理系统MyBatis+系统+LW文档+源码+调试部署 本源码技术栈: ...

  6. C#毕业设计——基于C#+asp.net+SQL server的网上物流管理信息系统设计与实现(毕业论文+程序源码)——网上物流管理信息系统

    基于C#+asp.net+SQL server的网上物流管理信息系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于C#+asp.net+SQL server的网上物流管理信息系统设计与实 ...

  7. C#毕业设计——基于C#+vc.net+Access的报名管理信息系统设计与实现(毕业论文+程序源码)——报名管理信息系统

    基于C#+vc.net+Access的报名管理信息系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于C#+vc.net+Access的报名管理信息系统设计与实现,文章末尾附有本毕业设计的 ...

  8. 免费开源的高精度OCR文本提取,支持 100 多种语言、自动文本定位和脚本检测,几行代码即可实现离线使用(附源码)

    免费开源的高精度OCR文本提取,支持 100 多种语言.自动文本定位和脚本检测,几行代码即可实现离线使用(附源码). 要从图像.照片中提取文本吗?是否刚刚拍了讲义的照片并想将其转换为文本?那么您将需要 ...

  9. asp毕业设计——基于vb+VB.NET+SQL Server的图书馆管理信息系统设计与实现(毕业论文+程序源码)——图书馆管理信息系统

    基于vb+VB.NET+SQL Server的图书馆管理信息系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于vb+VB.NET+SQL Server的图书馆管理信息系统设计与实现,文章 ...

最新文章

  1. 工信部:筹建全国首个区块链和分布式记账标准化技术委员会
  2. Leetcode1705. 吃苹果的最大数目[C++题解]:贪心
  3. 调参,注意神经网络处于哪种相态
  4. CHM格式的帮助文档,打开时乱码
  5. 超详细的HTTP面试题
  6. react 打包体积过大_解决 webpack 打包文件体积过大
  7. paip.提高稳定性---自动检测sleep mysql数据库死连接以及kill
  8. 6-14漏洞利用-rpcbind漏洞利用
  9. linux下载和安装activemq
  10. Excel-散点图(相关性及数据分布)分析
  11. 写一个函数days,实现第1 题的计算。由主函数将年、月、日传递给days函数,计算后将日子数传回主函数输出。
  12. C++ 判断矩形是否相交
  13. 为什么博客里的图片都显示不出来?
  14. mysql的首字母大写_修改MySQL字段为首字母大写
  15. 计算机管理恢复分区,如何在Windows中擦除恢复分区 | MOS86
  16. EJB----EJB 概念
  17. 前置机的作用(转载)
  18. proteus仿真 C51与ADC0809数模转换:万用表(电压、电流、电阻)数码管显示
  19. h5聊天页面 jquery_jQuery模拟实现聊天对话框
  20. 一步一步解读MT4的例子EA(init,sta…

热门文章

  1. 815 - Flooded!
  2. practice是什么意思_practice是什么意思 还有practice的用法
  3. 【GPLT】【2022天梯赛真题题解】
  4. 程序设计天梯赛 L1-6 斯德哥尔摩火车上的题分数 15
  5. 黑鲨Android系统耗电高,安卓顶配,黑鲨2pro作为主力机使用四天,来聊聊使用感受...
  6. 〖教程〗Ladon提权Win2016/Win10/MSSQL2016
  7. 鹏鹏的Altium Designer快捷方式技巧--SCH
  8. STM32解析航模遥控器的PPM信号
  9. 基于AHK的键盘映射——高效利用CapsLock键
  10. DSPC6657读取图片数据并进行图像处理