人脸活体检测论文：Multi-Modal Face Anti-Spoofing Based on Central Difference Networks

作者
Zitong Yu, Yunxiao Qin, Xiaobai Li, Zezheng Wang, Chenxu Zhao, Zhen Lei, Guoying Zhao

摘要

人脸反欺骗（Face anti-spoofing，FAS）在保护人脸识别系统免受表示攻击方面起着至关重要的作用。当现有的跨模态攻击方法依赖于复杂的交叉信息时，FAS很容易依赖于复杂的交叉信息。本文推广了中心差分卷积网络（CDCN）对于多模式版本，打算捕获三种模式（RGB、深度和红外）之间的固有欺骗模式。同时对CDCN模型进行了详细的研究。我们的方法在chaleran人脸防尾随攻击检测挑战@CVPR2020中获得“多模态”第一名和“单一模态（RGB）”第二名. 我方最终提交的数据“轨道多模态”和“轨道单一模态（RGB）”分别为1.02±0.59%和4.84%±1.79%。代码在https://github.com/ZitongYu/CDCN。

1. 介绍

人脸识别以其方便性（如访问控制、人脸支付和设备解锁）在许多交互式人工智能系统中得到了广泛的应用。然而，易受表示攻击（PAs）的影响，限制了其可靠的部署。仅仅将打印的图像或视频呈现给生物识别传感器可能会愚弄人脸识别系统。典型的演示攻击示例有打印、视频重放和3D掩码。为了保证人脸识别系统的可靠使用，人脸防欺骗（FAS）方法是检测此类表示攻击的重要手段。

一方面，经典的手工描述子利用邻域之间的局部关系作为判别特征（例如，局部二进制模式（LBP），对于描述真实和欺骗人脸之间的细节不变信息是鲁棒的（例如颜色纹理、云纹图案和噪声伪影）。另一方面，由于具有非线性激活的叠加卷积运算，卷积神经网络（CNN）具有很强的区分真实性和真实性的能力。然而，基于CNN的方法侧重于更深层次的语义特征，这些特征在描述真实人脸和欺骗人脸之间的详细内在信息方面能力较弱，在获取条件变化时容易失效（如光照和摄像机类型）。为了解决这个问题，中心差分卷积网络（CDCN）被开发用于单模态FAS任务，并在多个基准数据集上实现了最先进的性能。尽管目前最先进的单模态FAS方法在一些现有的测试协议中具有很强的鲁棒性，当遇到新的域转移（如跨种族）时，仍然具有挑战性。

CASIA-SURF CeFA，该数据集涵盖三个种族、三种模式、1607名受试者和2D+3D攻击类型。一些典型的例子如图1所示。

最具挑战性的协议4（同时进行交叉攻击和跨种族攻击）用于chaleran人脸防欺骗攻击检测挑战@CVPR2020。CASIASURF-CeFA数据集的基线结果表明：
1）多模式（即RGB、深度和红外（IR））融合比使用任意单一模式更稳健；
2）多模式结果（协议4中的ACER仅为31.8±10.0%）难以令人满意。因此，有必要探索更有效的多模态FAS方法来进行交叉攻击和跨种族测试。

基于以上讨论，我们首先分析了不同的模态对CDCN性能的影响。然后，我们将CDCN扩展到一个多模式版本，旨在捕获不同模式之间的固有欺骗模式。我们的贡献包括：

我们率先将CDCN用于基于深度和红外模式的FAS，并分析CDCN在这两种模式下的表现。除了考虑CDCN是一个单模态网络外，我们将其扩展到一个多模态版本，它捕获了模式之间丰富的区别线索，并代表了跨种族和攻击的不变的内在模式。
我们的方法在Chaleran人脸防欺骗攻击检测挑战中获得“多模式”第一名和“单一模式（RGB）”第二名。

2. 相关工作

首先介绍了单模态FAS的一些最新进展，然后介绍了关于多模态FAS的一些最新工作。最后，给出了视觉任务的经典卷积算子。

单模态反欺骗
传统的单峰人脸防欺骗方法通常是从RGB人脸图像中提取手工特征来捕捉欺骗模式。利用LBP、SIFT、SURF、HOG和DoG等经典局部描述符提取帧级特征，而视频级方法通常捕捉动态纹理、微运动和眨眼等动态线索。近年来，针对帧级和视频级的人脸防欺骗，提出了几种基于深度学习的方法。对于帧级方法，深层CNN模型用于在二元分类设置中提取特征。相比之下，引入了辅助深度监督FAS方法，以有效地学习更详细的信息。另一方面，提出了几种视频级卷积神经网络方法来利用PAD的动态时空或rPPG特征。尽管实现了最先进的性能，但单模态方法很容易受到未知的的域转移的影响（例如，跨种族和交叉攻击类型），并且对于具有挑战性的情况不具鲁棒性（例如，恶劣的环境和现实的攻击）。

多模式人脸防欺骗
针对多模式人脸防欺骗的研究也很少。Zhang等人以ResNet18为骨干，提出了一个三流网络，每个流的输入分别是RGB、深度和红外人脸图像。然后，这些特征被连接并传递到最后两个剩余块。Aleksandr等人也考虑了具有三个流的类似融合网络。选择ResNet34作为主干，在所有剩余块上融合多尺度特征。Tao等人提出了一种称为FaceBagNet的多流CNN架构。为了增强局部细节表达能力，采用了片级图像作为输入。此外，设计了模态特征消除操作，以防止过拟合，获得更稳健的模态融合特征。以前所有的方法都只考虑标准主干（ResNet）和层叠的普通卷积来处理多种模式，这可能在表示真实和欺骗人脸之间的内在特征方面很薄弱。

卷积算子
在深度学习框架中，卷积算子是提取基本视觉特征的常用方法。最近有人提出了对普通卷积算子的扩展。在一个方向上，经典的局部描述符（如LBP[1]和Gabor滤波器[11]）被考虑到卷积设计中。代表性的工作包括局部二进制卷积和Gabor卷积，它们分别是为了节省计算成本和增强对空间变化的抵抗力而提出的。最近，Yu等人提出了中心差分卷积（CDC），由于它对细节的内在模式有很好的表示能力，因此适合于FAS任务。另一个方向是修改聚合的空间范围。两个相关的工作是拨号卷积和变形卷积。然而，这些卷积算子都是针对RGB模式而设计的，对于深度和红外模式的卷积算子的性能仍然是未知的。

为了克服上述缺点，填补了空白，我们扩展了最先进的单模态网络CDCN为多模态版本，用于挑战跨种族和交叉攻击FAS任务。

3. 方法

在本节中，我们将首先在第3.1节中介绍CDC[39]，然后在第3.2节和第3.3节分别演示我们的单模态和多模态神经结构。最后在第3.4节中给出了监督信号和损失函数。

3.1 CDC

在深度学习框架中，特征映射和卷积可以用三维形状（二维空间域和额外通道维度）表示。为了简单起见，本文中所有的卷积都是在二维中描述的，而扩展到三维是很简单的。

普通卷积
二维空间卷积主要有两个步骤：1）在输入特征图上对局部感受野区域R进行采样；2）通过加权求和对采样值进行聚集。因此，输出特征映射可以表示为

中心差分卷积
对于FAS任务，区别能力强的特征表示对活体/欺骗体现出细密纹理的模式，鲁棒的特征表示环境变化不敏感模式。局部梯度算子（如局部二进制模式中的基本元素）作为一种残差项，能够捕捉到丰富的细节模式，且不易受外部变化的影响。
受LBP的启发，我们将中心差分上下文引入到普通卷积中，以增强其表示和泛化能力。中心差分卷积也包括采样和聚集两个步骤。采样步骤相似，但聚集步骤不同：中心差分卷积更倾向于聚集采样值的中心梯度。
中心差分卷积表示为：

由于强度级语义信息和梯度级细节信息对于区分真实人脸和欺骗人脸至关重要，因此，将普通卷积和中心差分卷积结合起来可能是一种可行的方法，可以提供更健壮的人脸建模能力。

如图2所示，我们将中心差分卷积推广为：

3.2 单模态CDCN

我们遵循类似的配置“CDCN++”作为我们的单一模式主干，包括低-中-高水平元素和多尺度注意力融合模块（MAFM）。考虑到CASIA-SURF CeFA数据集中的大规模训练数据，我们将初始通道数设置为80而不是64。具体网络如图3（a）所示。以256×256×3的单峰人脸图像作为网络输入，输出为预测的32×32灰度掩模。

3.3 多模态CDCN

我们采用配置“CDCN”[39]作为每个模态分支的骨干，因为我们发现MAFM在使用多模态融合时会降低性能。如图3（b）所示，每个模态分支的主干网不被共享。因此，每个分支都能够独立地学习模态感知特征。每个模态分支的多层次特征通过连接进行融合。最后，两个头部层综合多模态特征，预测灰度掩模。
由于特征级融合策略可能不是所有协议的最优融合策略，我们还尝试了另外两种融合策略：1）将三个模态输入直接串联成256×256×9的输入级融合；2）通过加权每个模态的预测得分进行分数级融合。对于这两种融合策略，使用了单模CDCN的体系结构（见图3（a））。相应的研究见第4.4节。

3.4 监督

与传统的基于二进制标量分数的引导相比，像素级监督有助于学习更多区分真实人脸和欺骗人脸的模式。因此，我们的网络优先于预测32×32灰度掩模，而不是传统的标量评分。在基真值标注方面，由于CASIASURF-CeFA数据集中非人脸背景的强度值已经为0，所以我们只需将非零像素值设置为1来生成二值掩模。

对于损耗函数，均方误差损失LMSE用于像素级监控，其公式如下：

此外，为了满足FAS任务的细粒度监控需求，考虑了对比深度损失（CDL），以帮助网络学习更详细的特征。CDL可以表述为：

4 实验

在这一部分，我们将进行大量的实验来证明我们的方法的有效性。在下面，我们按顺序描述所使用的数据集和指标（第4.1），实施细节（第4.2），结果（第4.3-4.4）和可视化（第4.5节）。

4.1 数据集和指标

CASIA-SURF CeFA数据集
CASIA-SURF CeFA的目标是提供最大的最新人脸防眩晕数据集，以便评估跨种族和交叉攻击的泛化性能。它由二维和三维攻击子集组成。对于2D攻击子集，它包括打印和视频回复攻击，以及三个种族（非洲、东亚和中亚）和两个攻击（来自布料的打印脸和视频回放）。每个种族有500名受试者。每个实验对象有一个真实的样本，两个室内和室外的打印攻击的假样本，以及一个视频回放的假样本。总共有18000个视频（每个模式6000个）。
在CASIA-SURF CeFA中，有四种评估方案可用于跨种族、交叉攻击、跨模态和跨种族和交叉攻击测试。在本文中，我们的实验都是在最具挑战性的协议4（跨种族和交叉攻击）上进行的，该协议已用于ChaLearn人脸反欺骗攻击检测挑战@CVPR2020。

评价指标
攻击呈现分类错误率（APCER）、真实呈现分类错误率（BPCER）和平均分类错误率（ACER）。

4.2 实施细节

我们提出的方法是用Pytorch实现的。在训练阶段，利用Adam优化器对模型进行训练，初始学习率和权值衰减分别为1e-4和5e-5。我们训练50个epochs的模型，而学习率每20个epochs减半。在P100 GPU上，批大小为8。在测试阶段，我们计算预测的灰度图的平均值作为最终得分。

4.3 单模态试验

在这一部分中，我们首先对RGB模式下的超参数 θ \theta θ进行了研究。然后基于CDCN的 θ \theta θ最优解，我们测试了深度和红外模式。最后，我们总结了我们在chaleran人脸反欺骗攻击检测挑战@CVPR2020中的最佳提交结果。

对RGB模态 θ \theta θ的影响

深度和红外成像结果
令人惊讶的是，不同模式的表现有很大差异。红外成像设备在协议4@1中表现最好（在没有非洲的情况下进行测试）但在协议4@2和4@3中是最差的（在非洲进行测试），表明IR模式对看不见的非洲种族的效果很差。与RGB和IR模式相比，深度模态在大多数情况下（例如测试阶段的打印攻击）更健壮和更具区分性，因为3D深度形状在真实人脸和打印人脸之间具有很好的区分性。中心差分卷积不仅适用于RGB模式，而且适用于红外和深度模式。

单模态（RGB）最佳提交结果
该最终结果与最佳子协议结果相结合（即分别 θ \theta θ=0.9、0.5和0.7）。

4.4 多模态试验

在本小节中，研究了多模态试验中的三种融合策略。然后给出多模态的最优提交结果。

多模态融合策略
如表4所示，我们提出的多模式CDCN（即三种模式的特征级融合）在协议4@1中实现了最低的ACER（0.42%）。当使用三种模式的串联输入（输入级融合）时，CDCN可以获得与表2中的单模态结果相当的性能。然而，与最佳单模态结果相比，它仍然会导致性能下降（如4@1协议的红外模态，协议4@2和协议4@3的深度模式）。它还反映了特征级和输入级融合的问题，即简单的级联融合可能是次优的，因为它在表示和选择模式的重要性方面较弱。值得进一步探索更有效的融合方法（如模式注意机制）。

基于表2中的先前结果，我们将RGB和深度模式的结果平均加权为分数级融合（即=0.5RGB得分+0.5深度得分）。如表4（第三行）所示，这种简单的集成策略有助于显著提高性能。与单深度模式相比，分数级融合对协议4@2以及4@3改进融合得分的ACER分别是0.54%和1.13%。

多模态的最佳提交结果
表5显示了我们的最佳提交结果（1.02±0.59%ACER），在ChaLearn FAS攻击检测的“跟踪多模式”中获得第一名挑战@CVPR2020。该最终结果与最佳子协议结果相结合（即4@1协议的特征级融合和4@2、4@3的分数级融合)。

4.5 特征可视化

图5显示了CDCN的三种成像方式。一方面，CDCN的低层、中层和高层特征在这三种模式中都有明显的区别。在低层特征方面，生物具有更为细致的纹理（尤其是红外模态）。对于高层次特征，活脸区域更为纯净，而欺骗区域则具有更多的欺骗/噪声模式。

另一方面，深度和红外模式是RGB模式的补充，有助于稳健的活性检测。从图5的最后一行可以看出，CDCN仅使用RGB输入无法检测到欺骗1，而通过深度或红外输入可以准确检测到欺骗1。

5 结论

本文详细介绍了在反卷积网络中的应用。实验结果表明了CDCN对单模态和多模态FAS的有效性。所提出的方法在Chaleran人脸防欺骗攻击检测挑战@CVPR2020中获得“多模态”第一名，以及“单模态（RGB）”第二名。