Facial Feature Embedded CycleGAN for VIS-NIR Translation

论文地址：Facial Feature Embedded CycleGAN for VIS-NIR Translation

这是来自武汉大学的一篇VIS 转NIR的论文
通常在可见光图像和红外图像存在两种情况转换：
IR2RGB: 这在异质人脸识别中使用较多，由于主动红外IR相机图像不受环境光线的影响，且在人脸反欺诈方面的优异性能，得到了广泛使用，但是当今大部分的开源数据集及模型在RGB上表现良好，因此有做法是将IR数据转换到RGB
RGB2IR：这种应用主要是针对大量开源数据集均为彩色图像，因此对于IR的应用有必要将彩色图像转换到IR域，实现数据集共用。
可见光-红外跨模态人脸识别一直是一个具有挑战性的任务。
本文提出了一种基于CycleGAN，使用一个通用的人脸特征提取器（facial feature extractor FFE）来替代CycleGAN中的encode，实现图像转换。

本文中两点创新：
（1）、人脸特征提取器FFE替代encode
（2）、Pixel consistency Loss

1、人脸特征提取 FFE

流程图如上图所示，将人脸特征提取器FFE（encode）和反卷积模块（decode）嵌入到CycleGAN的G 和F生成器中。

生成器网络架构如上图。使用在人脸识别数据集上预训练过的FFE用于VIS->NIR 图片的特征提取Fv， Fv使用了6层 residual block 到FN，最后通过反卷积Decode生成NIR图片。

经验表明，CycleGAN在人脸图像转换方面效果欠佳（见文后效果），作者认为一个可能的解释是：**CycleGAN的特征网络及学习到的特征不是针对人脸图像的。**因此想到了替换为人脸识别较好的网络。
笔者这样理解：CycleGAN主要针对非paired image风格转换，侧重的是对整体风格特征的提取，如油画、斑马纹理转换等，而对纹理细节的控制不够理想，比如在斑马转马图中明显感觉转换后的斑马还有斑格线；图像模糊度增加等。一定程度上与CycleGAN的模型结构相关。同时，我们也未告诉模型图像中斑马在哪，导致转换不够精准，导致骑马的人和马都被转成斑马了。笔者在思考是否需要在大图的风格转换中加入mask提高模型的专注力，这样就能实现对特定物体的转换，而不是全部，当然这是后话了。

作者列出了可选的FFE:
(1) FaceNet，使用对齐面部patch的三联深度网络训练，将人脸图像直接映射到一个紧凑的欧几里得空间来测量人脸相似性。它形成了大量的人脸特征提取网络，在LFW数据集上的识别精度达到99.63%。
(2) DeepID3，重建VGG16和googleNet的卷积层和inception layers，在训练阶段，在中间和最终的特征提取层中加入了联合人脸识别-验证监督信号，提高了人脸识别的性能，这两种方法在LFW数据集上实现了99.53%的人脸验证精度。
(3) MobileFaceNet，是一个非常高效的CNN，数据量远低于现有方法的数据量，使用全局深度卷积(GDConv)[26]作为全局算子，而不是平均池，目的是在训练后学习不同空间位置的重要性。在LFW数据集上的人脸验证精度可达99.55%。

本文选择了MobileFaceNet结构，但是由于红外图和RGB图像数量的不均衡问题，本文利用数量更多的RGB图像对FFE模块进行预训练，使得模型可以精确地提取到人脸特征，学习两个模态的映射函数，生成更加真实的伪红外图像。
训练过程：在容易获取的VIS图像上（MS-Celeb-1M）训练FFE模块。作者认为在VIS图像上训练后的特征提取器在NIR域也能很好地工作，这点笔者有点怀疑，进一步的做法可以在IR图像上再fineture。

2、Pixel Consistency Loss

参考CycleGAN中两个基本损失函数
（1）生成器对抗损失+ 鉴别器判别损失

G最小化损失，实现与真值相近；D最大化区别，实现生成结果与真值区分

（2）cycle consistency loss

转换过去的图还得再恢复回来，实现闭环转换，防止单向操作可能造成的结果发散。

作者提出的pixel consistency loss(pc) 如公式（3）：

pc loss 其实就是像素匹配loss，理论上只对paired 数据有效，作者使用了自己收集的数据集WHU VIS-NIR ，作者称大致配对，但是不严格配对。笔者认为只要位置关系差不不太离谱，pc loss 应该是有发挥空间的。

总的loss:

3、数据集

WHU VIS-NIR 数据集

作者使用双目相机同步采集了80个人 VIS-NIR paired 图片。包含面部转动和不同表情。
70组 20VIS+20NIR作为训练集，其余10组测试。使用TAR@FAR=1%,TAR@FAR=0.1% 以及Rank-1 识别率作为评估指标。

Oulu-CASIA NIR-VIS表情数据集

该数据集包含80个人6种表情，每种表情在三种光照条件下得到NIR 与VIS 图像。随机从每种表情中选取8张图且只使用室内正常光照图。每组取48张图，train和test各取20组，供960张VIS 和960张NIR图片。使用TAR@FAR=1%,TAR@FAR=0.1% 以及Rank-1 识别率作为评估指标。

4、实验

设置

MobileFaceNet 在MS-Celeb-1M softmax loss 预训练, 使用Arcface loss Fine-tuned。
FFE-CycleGAN在WHU VIS-NIR paired database 训练，然后再Oulu-CASIA NIR-VIS fine-tune 几个epoch。使用MTCNN 提取人脸框facial landmarks，然后对齐并resize到256x256.

结果

（1）WHU VIS-NIR test

可见CycleGAN 无法很好地学到NIR风格特征，像是仅仅做了光谱纹理转换，而没有考虑人脸特征的变化。如鼻子处的暗斑和脸部轮廓。缺乏光滑性，artificial严重。这可能跟CycleGAN缺少Lpc约束有关。更重要的是，FFE-CycleGAN直接转换人脸特征，而不是整张图的特征，因此其fake NIR 图片更加真实。
从表中可以看出，本文中增加的Lpc提高了基础CycleGAN的识别性能。而FFE-CycleGAN+Lpc显著地提高了NIR人脸准确度。

（2）Oulu-CASIA NIR-VIS 测试

从Fig6可看出，本文生成的结果更加真实和更平滑。作者认为：对于使用验证准确度和Rank-1 score计算的人脸验证来说，提取VIS 和NIR 图片共同的特征是匹配成功的关键。FFE-CycleGAN不仅仅是学习NIR光谱特点，也同时学习脸部的变化，比如由于NIR低光照导致的黑且模糊的轮廓，或者是NIR图片独有的噪声分布。

与其他方法比较结果达到了最佳。

5 总结展望

未来方向：
更大数据集提升网络
其他人脸特征提取网络替代MobileFaceNet
未来聚焦进一步提升图像质量，如高保真度，更深层次的转换不变性。