Facial Feature Embedded CycleGAN for VIS-NIR Translation 论文解读
Facial Feature Embedded CycleGAN for VIS-NIR Translation
论文地址:Facial Feature Embedded CycleGAN for VIS-NIR Translation
这是来自武汉大学的一篇VIS 转NIR的论文
通常在可见光图像和红外图像存在两种情况转换:
IR2RGB: 这在异质人脸识别中使用较多,由于主动红外IR相机图像不受环境光线的影响,且在人脸反欺诈方面的优异性能,得到了广泛使用,但是当今大部分的开源数据集及模型在RGB上表现良好,因此有做法是将IR数据转换到RGB
RGB2IR: 这种应用主要是针对大量开源数据集均为彩色图像,因此对于IR的应用有必要将彩色图像转换到IR域,实现数据集共用。
可见光-红外跨模态人脸识别一直是一个具有挑战性的任务。
本文提出了一种基于CycleGAN,使用一个通用的人脸特征提取器(facial feature extractor FFE)来替代CycleGAN中的encode,实现图像转换。
本文中两点创新:
(1)、人脸特征提取器FFE替代encode
(2)、Pixel consistency Loss
1、人脸特征提取 FFE
流程图如上图所示,将人脸特征提取器FFE(encode) 和反卷积模块(decode) 嵌入到CycleGAN的G 和F生成器中。
生成器网络架构如上图。使用在人脸识别数据集上预训练过的FFE用于VIS->NIR 图片的特征提取Fv, Fv使用了6层 residual block 到FN,最后通过反卷积Decode生成NIR图片。
经验表明,CycleGAN在人脸图像转换方面效果欠佳(见文后效果),作者认为一个可能的解释是:**CycleGAN的特征网络及学习到的特征不是针对人脸图像的。**因此想到了替换为人脸识别较好的网络。
笔者这样理解:CycleGAN主要针对非paired image风格转换,侧重的是对整体风格特征的提取,如油画、斑马纹理转换等,而对纹理细节的控制不够理想,比如在斑马转马图中明显感觉转换后的斑马还有斑格线;图像模糊度增加等。一定程度上与CycleGAN的模型结构相关。 同时,我们也未告诉模型图像中斑马在哪,导致转换不够精准,导致骑马的人和马都被转成斑马了。笔者在思考是否需要在大图的风格转换中加入mask提高模型的专注力,这样就能实现对特定物体的转换,而不是全部,当然这是后话了。
作者列出了可选的FFE:
(1) FaceNet,使用对齐面部patch的三联深度网络训练,将人脸图像直接映射到一个紧凑的欧几里得空间来测量人脸相似性。它形成了大量的人脸特征提取网络,在LFW数据集上的识别精度达到99.63%。
(2) DeepID3,重建VGG16和googleNet的卷积层和inception layers,在训练阶段,在中间和最终的特征提取层中加入了联合人脸识别-验证监督信号,提高了人脸识别的性能,这两种方法在LFW数据集上实现了99.53%的人脸验证精度。
(3) MobileFaceNet,是一个非常高效的CNN,数据量远低于现有方法的数据量,使用全局深度卷积(GDConv)[26]作为全局算子,而不是平均池,目的是在训练后学习不同空间位置的重要性。在LFW数据集上的人脸验证精度可达99.55%。
本文选择了MobileFaceNet结构,但是由于红外图和RGB图像数量的不均衡问题,本文利用数量更多的RGB图像对FFE模块进行预训练,使得模型可以精确地提取到人脸特征,学习两个模态的映射函数,生成更加真实的伪红外图像。
训练过程:在容易获取的VIS图像上(MS-Celeb-1M)训练FFE模块。作者认为在VIS图像上训练后的特征提取器在NIR域也能很好地工作,这点笔者有点怀疑,进一步的做法可以在IR图像上再fineture。
2、Pixel Consistency Loss
参考CycleGAN中两个基本损失函数
(1)生成器对抗损失+ 鉴别器判别损失
G最小化损失,实现与真值相近;D最大化区别,实现生成结果与真值区分
(2)cycle consistency loss
转换过去的图还得再恢复回来,实现闭环转换,防止单向操作可能造成的结果发散。
作者提出的pixel consistency loss(pc) 如公式(3):
pc loss 其实就是像素匹配loss,理论上只对paired 数据有效,作者使用了自己收集的数据集WHU VIS-NIR ,作者称大致配对,但是不严格配对。笔者认为只要位置关系差不不太离谱,pc loss 应该是有发挥空间的。
总的loss:
3、数据集
WHU VIS-NIR 数据集
作者使用双目相机同步采集了80个人 VIS-NIR paired 图片。包含面部转动和不同表情。
70组 20VIS+20NIR作为训练集,其余10组测试。使用TAR@FAR=1%,TAR@FAR=0.1% 以及Rank-1 识别率作为评估指标。
Oulu-CASIA NIR-VIS表情数据集
该数据集包含80个人6种表情,每种表情在三种光照条件下得到NIR 与VIS 图像。随机从每种表情中选取8张图且只使用室内正常光照图。每组取48张图,train和test各取20组,供960张VIS 和960张NIR图片。使用TAR@FAR=1%,TAR@FAR=0.1% 以及Rank-1 识别率作为评估指标。
4、实验
设置
MobileFaceNet 在MS-Celeb-1M softmax loss 预训练, 使用Arcface loss Fine-tuned。
FFE-CycleGAN在WHU VIS-NIR paired database 训练,然后再Oulu-CASIA NIR-VIS fine-tune 几个epoch。使用MTCNN 提取人脸框facial landmarks,然后对齐并resize到256x256.
结果
(1)WHU VIS-NIR test
可见CycleGAN 无法很好地学到NIR风格特征,像是仅仅做了光谱纹理转换,而没有考虑人脸特征的变化。如鼻子处的暗斑和脸部轮廓。缺乏光滑性,artificial严重。这可能跟CycleGAN缺少Lpc约束有关。更重要的是,FFE-CycleGAN直接转换人脸特征,而不是整张图的特征,因此其fake NIR 图片更加真实。
从表中可以看出,本文中增加的Lpc提高了基础CycleGAN的识别性能。而FFE-CycleGAN+Lpc显著地提高了NIR人脸准确度。
(2)Oulu-CASIA NIR-VIS 测试
从Fig6可看出,本文生成的结果更加真实和更平滑。作者认为:对于使用验证准确度和Rank-1 score计算的人脸验证来说,提取VIS 和NIR 图片共同的特征是匹配成功的关键。FFE-CycleGAN不仅仅是学习NIR光谱特点,也同时学习脸部的变化,比如由于NIR低光照导致的黑且模糊的轮廓,或者是NIR图片独有的噪声分布。
与其他方法比较结果达到了最佳。
5 总结展望
未来方向:
更大数据集提升网络
其他人脸特征提取网络替代MobileFaceNet
未来聚焦进一步提升图像质量,如高保真度,更深层次的转换不变性。
Facial Feature Embedded CycleGAN for VIS-NIR Translation 论文解读相关推荐
- 2020 ICASSP之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation
Facial Feature Embedded CycleGAN for VIS-NIR Translation 当前的问题及概述: 由于两个模态的光谱成分的差异以及配对训练数据的不足,可见光-红外跨 ...
- Few-shot Unsupervised Image-to-image Translation论文解读
在人工智能"造假"领域有着三大"邪术": "AI 换脸术"Deepfake ."无中生有术"StyleGAN,和&quo ...
- CycleGAN(循环生成对抗网络)论文解读
图像到图像的转换的目标是使用配准的图像对训练集来学习输入图像和输出图像之间的映射,而CycleGAN中使用的方法是缺少配对训练集的情况下进行图像转换 传统的图像转换如上图左,训练集是配对的x,y图像{ ...
- Vocabulary Learning via Optimal Transport for Neural Machine Translation论文解读
abstract token vocabulary的选择对机器翻译结果的影响比较大 本文研究什么样才是好的词表,并且能不能不通过训练直接找到最优的词表 首先提供一种从信息理论的角度来分析词表的作用 通 ...
- 【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation
论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation 论文主页:https://panzhang ...
- 对抗神经网络CycleGAN论文解读
论文题目:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 论文地址:https://ar ...
- Face Super-Resolution Guided by 3D Facial Priors(ECCV2020)论文解读
Face Super-Resolution Guided by 3D Facial Priors(ECCV2020)论文解读 论文地址:https://arxiv.org/pdf/2007.09454 ...
- 论文解读:Semantic Neural Machine Translation using AMR
论文解读:Semantic Neural Machine Translation using AMR 机器翻译主要得益于语义表征能力,为了缓解数据的稀疏性,作者提出一种神经机器翻译方法,利用AMR ...
- RFA-Net: Residual feature attention network for fine-grained image inpainting 论文阅读笔记
RFA-Net: Residual feature attention network for fine-grained image inpainting 论文阅读笔记 摘要 尽管大多数使用生成对抗性 ...
- 【SSD论文解读】 模型部分:骨干网络 VGG16 + 特征提取层 Extra Feature Layers
[SSD论文解读] 模型部分 一.骨干网络 1.原始的骨干网络--VGG16 2.SSD对VGG16的改进 3.代码 二.Extra Feature Layers 1.使用多尺度的特征图进行检测 代码 ...
最新文章
- 同步服务器文档并打印,如何打印远程服务器文件内容
- boost::phoenix::lambda相关的测试程序
- 使用CSS实现图片未加载完成时占位显示
- php socket 基础知识
- python直角三角形型编程_python打印直角三角形与等腰三角形实例代码
- 一些常用算法 练手的的代码
- RPC Demo(二) 基于 Zookeeper 的服务发现
- C语言输入一个大写字母,试输出其小写字母
- 记录一次多表关联查询
- 详解sqlserver 执行计划
- PHP5.5 ~ PHP7.2新特性总结
- 河北农业大学林学可转计算机系吗,河北农业大学专业排名,招生专业目录(10篇)...
- SH7001单电池恒压线性充电IC
- Android系统的启动流程
- CAD教程:CAD软件中怎么将图块改层?
- OpenVR学习01 成功打开了VR设备
- An overview of color constancy algorithms论文笔记
- 数字证书、CA、CA证书、SSL证书、CA锁 简单介绍
- 网络通信、UDP通信、TCP通信、BS架构模拟、URL了解
- [读书笔记]Core Java: Volume I - Fundamentals Chapter 8