承接上上篇博客,在其基础上,加入了Wasserstein distancecorrelation prior 。其他相关工作、网络细节(maxout operator)、训练方式和数据处理等基本和前文一致。以下是这两点改进的大概:

  • Wasserstein convolutional neural network(WCNN)的低级层利用容易得到的大量VIS光谱训练,高级层划分为3部分:the NIR layer, the VIS layer and the NIR-VIS shared layer。前两层旨在学习模态明确特征(modality-specific features),最后一层学习模态不变特征子空间(modality-invariant feature subspace)。Wasserstein distance用在最后一层来估量两种异质图像特征分布的不相似性。即WCNN通过最小化NIR分布与VIS分布之间的Wasserstein 距离来得到深度不变表征。
  • 为了避免小规模异质数据的过拟合,一个correlation piori引入到WCNN的全连接层中,最后同之前博客中一样,交替优化。这个correlation由一个非凸低秩限制来实现(a non-convex low-rank constraint)。当训练集较小时这个prior尤其重要

文章的四大贡献:

  • 端到端网络学习模态不变特征,这个结构自然的结合了不变特征提取和子空间学习。两个正交子空间分别建模身份光谱信息,(一张人脸图其实包括了人脸身份信息+人脸光谱信息)。这个网络用来同时提前NIR和VIS特征。
  • Wasserstein distance引入,度量NIR和VIS模态的分布差异,相比之前的sample-level的度量,这个Wasserstein distance更有效减少两种模态的分布差异,提高性能。

  • correlation prior引入,减轻在全连接层中小规模数据产生的过拟合问题,这个先验提高了WCNN在小数据集的表现。
  • 在CASIA NIR-VIS 2.0 人脸数据集上的性能达到了SOTA。

异质人脸识别(验证)的四大类方法:

  • mage synthesis、
  • Feature representation、
  • Subspace learning、
  • Deep learning

网络结构

Fig 1. An illustration of our proposed Wasserstein CNN architecture. The Wasserstein distance is used to measure the difference between NIR
and VIS distributions in the modality invariant subspace (spanned by matrix W). At the testing time, both NIR and VIS features are exacted from
the shared layer of one single neural network and compared in cosine distance.

网络解释如下:

1. Modality Invariant Subspace

减轻NIR-VIS外观差异,即想办法移除掉光谱(外观)差异,那么只剩下identity信息就容易匹配了。之前的方法都是移除一些principal subspaces,假定这些子空间是包含光谱信息的。受此启发,这里引入三个映射矩阵(见上图):W,PN,PV。W用来将建模 modeling identity invariant information,P用来建模 variant spectrum information。所以输入两张图,得到三个特征:

其中WX和PX分别表示共享特征和独立特征,考虑到子空间中分解特性,限制其互相无关:

这个限制可减少参数空间,减轻过拟合。将特征表示和子空间学习两个独立步骤和合为一步。

2. The Wasserstein Distance

NIR和VIS图像的gap是异质图像识别的主要问题。之前的方法引导sample-level的限制来解决这个gap。比如有contrastive loss和triplet loss等都施加在NIR-VIS sample pairs上。这些方法仅仅考虑NIR-VIS samples的关系而非NIR-VIS 分布的关系。近来Wasserstein distance在GAN中度量模型分布和真实分布扮演了重要的角色。受到Wasserstein GAN和BEGAN的启发,我们利用Wasserstein distance来测量NIR和VIS数据分布之间的一致性。假定在非线性特征映射后同一subject遵从高斯分布。施加 Wasserstein distance 在同一subject(即同一个体identity)的分布上。具体实现细节见paper,比较好理解。

3. Correlation Prior

过拟合问题。NIR-VIS数据集通常比纯VIS数据集小得多。全连接的参数最多。本文将WCNN的全连接层分解为两个矩阵:FN、FV。分别对应NIR和VIS模态。我们希望M(下式)高度相关,使得M.T*M为一块对角矩阵。一个相关的M将减少估计的参数空间,减轻过拟合。进一步探索M的核范数。其余细节见paper。

4. loss

其中第一项为分类损失,第二项为W距离,第三项为proir约束。beta1=beta2=1,beta3=0.001,说明这个prior在这里不是很重要。

5. CONCLUSIONS

Same as before

转载于:https://www.cnblogs.com/king-lps/p/10012172.html

Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition相关推荐

  1. Learning Invariant Deep Representation for NIR-VIS Face Recognition

    查找异质图像匹配的过程中,发现几篇某组的论文,都是关于NIR-VIS的识别问题,提到了许多处理异质图像的处理方法,网络结构和idea都很不错,记录其中一篇. 其余两篇: Wasserstein CNN ...

  2. 时空特征--Learning Spatiotemporal Features with 3D Convolutional Networks

    Learning Spatiotemporal Features with 3D Convolutional Networks ICCV 2015 http://vlg.cs.dartmouth.ed ...

  3. 【论文笔记】Learning Enriched Features for Real Image Restoration and Enhancement

    Learning Enriched Features for Real Image Restoration and Enhancement Abstract Contribution Method(M ...

  4. 《Learning Enriched Features for Real Image Restoration and Enhancement》

    一.论文 <Learning Enriched Features for Real Image Restoration and Enhancement> 摘要:以从降级版本中恢复高质量图像 ...

  5. Learning Rich Features at High-Speed for Single-Shot Object Detection

    Learning Rich Features at High-Speed for Single-Shot Object Detection abstract 单级目标检测方法因其具有实时性强.检测精度 ...

  6. 视频分类论文阅读笔记——Learning Spatiotemporal Features With 3D Convolutional Networks

    论文:Learning Spatiotemporal Features With 3D Convolutional Networks 作者:FaceBook AI研究院 来源:ICCV2015 代码: ...

  7. Learning Deep Features for Discriminative Localization -CAM方法帮助若监督学习研究实现物体定位论文阅读笔记

    作者:18届会长cyl 时期: 2020-9-11 论文<Learning Deep Features for Discriminative Localization> 期刊:2016CV ...

  8. 图像拼接--Automatic Panoramic Image Stitching using Invariant Features

    Automatic Panoramic Image Stitching using Invariant Features <International Journal of Computer V ...

  9. UFLDL教程: Exercise:Learning color features with Sparse Autoencoders

    Linear Decoders Deep Learning and Unsupervised Feature Learning Tutorial Solutions 以三层的稀疏编码神经网络而言,在s ...

最新文章

  1. Android-Binder(一)
  2. CA ARCserve Backup系列(3)—安装代理(Linux篇)
  3. php5.4 traits
  4. 13、HTML <meta>标签
  5. @transactional注解_为啥同一个类中普通方法调用Spring注解方法,注解会失效?看完你就明白,So easy!...
  6. DGL_图的创建、保存、加载
  7. css代码优化思路,CSS代码优化方法
  8. 财经数据提取器上线拉
  9. xml文件操作小结(3)---selectsinglenode方法中的xpath%%%%转自酷网动力(www.ASPCOOL.COM)。...
  10. 西瓜哥:公有云也“All-Flash”?
  11. 微软拒绝修复滥用 MSTSC 的安全绕过缺陷
  12. 论坛源码手机php,【校园社区APP】带后台完整社区论坛手机应用源码
  13. android刷机教程 华为,华为手机刷机教程(华为手机强制刷机步骤图文教程)
  14. 自制狂拍灰太狼小游戏(HTML+CSS+JavaScript)
  15. 如何录用有竞业限制协议的员工?
  16. egret给对象涂颜色
  17. 家用台式计算机硬件配置清单,家用台式电脑配置清单
  18. 霍尔 磁电 光电式传感器的比较 实验思考题
  19. 3d打印利器FreeCAD入门教程之二----乐高积木块建模操作篇
  20. C盘数据丢失恢复详解和注意事项

热门文章

  1. 自媒体多平台助手——融媒宝
  2. php+拆分gif,PHP批量下载五笔字根拆分解GIF图
  3. Turnkey wordpress镜像下载
  4. 【漏洞学习——SSRF】小米某处SSRF漏洞(可内网SHELL 附多线程Fuzz脚本)
  5. Spring Boot 之 spring.factories的用法
  6. bootstrap table php,Bootstrap Table使用方法详解
  7. 文学创作类APP对创作者的帮助
  8. 【Java后端认证答辩、面试题】
  9. Transact-SQL知识点梳理
  10. LimeSDR Mini 安装教程